[問題] 用python抓網頁資料(抓link)

作者rock1985 (疾風)

看板Python

標題[問題] 用python抓網頁資料(抓link)

時間Sun Feb 6 13:02:46 2011

小弟我剛開始學python 想用python去抓網頁資料，等抓到某個網頁之後再看裡面有沒有其他的連結，繼續去抓我爬了一下文跟找一些資料 import urllib sock = urllib.urlopen("http://www.google.com/") htmlSource = sock.read() sock.close() print (htmlSource) 我現在卡在一個問題我的程式執行的時候會說 Traceback (most recent call last): File "D:\workspace\HW1\src\main.py", line 2, in <module> sock = urllib.urlopen("http://diveintopython.org/") AttributeError: 'module' object has no attribute 'urlopen' 我是用Eclipse開專案寫 2.7和3.0的Grammar version都試過不過都不行但是我查了一下兩個版本都有支援 urllib 大概是我哪裡出了問題呢? 順便請問一下有比較好用的HTML的parser嗎可以用來抓網頁資料或是分析新手上路請大家多多指教謝謝大家 -- 我不是宅我只是比較居家 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 108.6.70.125

→ rock1985:htmllin好像之支援到2.4? 02/06 13:04

推 ya790206:Deprecated since version 2.6: The urlopen() function 02/06 14:53

→ ya790206:has been removed in Python 3.0 in favor of 02/06 14:54

→ ya790206: urllib2.urlopen(). 02/06 14:54

→ ya790206:html parser 試試看 HTMLParser 02/06 15:08

推 bobhsiao:BeautifulSoup 02/06 17:23

→ yjc1:lxml 02/06 17:52

推 AlanSung:ref http://pypi.python.org/pypi/mechanize/ 02/07 12:56