作者rock1985 (疾風)
看板Python
標題[問題] 用python抓網頁資料(抓link)
時間Sun Feb 6 13:02:46 2011
小弟我剛開始學python
想用python去抓網頁資料,等抓到某個網頁之後
再看裡面有沒有其他的連結,繼續去抓
我爬了一下文跟找一些資料
import urllib
sock = urllib.urlopen("
http://www.google.com/")
htmlSource = sock.read()
sock.close()
print (htmlSource)
我現在卡在一個問題
我的程式執行的時候會說
Traceback (most recent call last):
File "D:\workspace\HW1\src\main.py", line 2, in <module>
sock = urllib.urlopen("
http://diveintopython.org/")
AttributeError: 'module' object has no attribute 'urlopen'
我是用Eclipse開專案寫
2.7和3.0的Grammar version都試過
不過都不行
但是我查了一下 兩個版本都有支援 urllib
大概是我哪裡出了問題呢?
順便請問一下
有比較好用的HTML的parser嗎
可以用來抓網頁資料或是分析
新手上路 請大家多多指教
謝謝大家
--
我不是宅 我只是比較居家
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 108.6.70.125
→ rock1985:htmllin好像之支援到2.4? 02/06 13:04
推 ya790206:Deprecated since version 2.6: The urlopen() function 02/06 14:53
→ ya790206:has been removed in Python 3.0 in favor of 02/06 14:54
→ ya790206: urllib2.urlopen(). 02/06 14:54
→ ya790206:html parser 試試看 HTMLParser 02/06 15:08
推 bobhsiao:BeautifulSoup 02/06 17:23
→ yjc1:lxml 02/06 17:52