看板 Python 關於我們 聯絡資訊
小弟我剛開始學python 想用python去抓網頁資料,等抓到某個網頁之後 再看裡面有沒有其他的連結,繼續去抓 我爬了一下文跟找一些資料 import urllib sock = urllib.urlopen("http://www.google.com/") htmlSource = sock.read() sock.close() print (htmlSource) 我現在卡在一個問題 我的程式執行的時候會說 Traceback (most recent call last): File "D:\workspace\HW1\src\main.py", line 2, in <module> sock = urllib.urlopen("http://diveintopython.org/") AttributeError: 'module' object has no attribute 'urlopen' 我是用Eclipse開專案寫 2.7和3.0的Grammar version都試過 不過都不行 但是我查了一下 兩個版本都有支援 urllib 大概是我哪裡出了問題呢? 順便請問一下 有比較好用的HTML的parser嗎 可以用來抓網頁資料或是分析 新手上路 請大家多多指教 謝謝大家 -- 我不是宅 我只是比較居家 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 108.6.70.125
rock1985:htmllin好像之支援到2.4? 02/06 13:04
ya790206:Deprecated since version 2.6: The urlopen() function 02/06 14:53
ya790206:has been removed in Python 3.0 in favor of 02/06 14:54
ya790206: urllib2.urlopen(). 02/06 14:54
ya790206:html parser 試試看 HTMLParser 02/06 15:08
bobhsiao:BeautifulSoup 02/06 17:23
yjc1:lxml 02/06 17:52
AlanSung:ref http://pypi.python.org/pypi/mechanize/ 02/07 12:56