作者einstein328 (pica)
看板Python
標題[問題] 網路爬蟲
時間Tue Aug 3 21:38:27 2010
hay, 我最近試著想寫一個爬蟲, 能抓下面網站的所有資料
http://mops.twse.com.tw/mops/web/index
---------------------------------------
我先把問題簡化成抓某一個特定網頁, 如下
http://mops.twse.com.tw/mops/web/t05st31
我發現一些問題,
我在 [公司代號或簡稱] 輸入不同的數字, 例如 : 2041 或是 2043,
在按搜尋, 並檢視其網頁原始檔, 找不到相對應的資料出現.
這是為什麼阿??
p.s 我略懂python, 但網頁技術, 還未熟悉, 問太蠢的話請見諒.
p.p.s 我打算用 Scrapy, 來寫爬蟲, 請前輩給一些建議.
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 122.121.205.2
推 ypcat:因為是 ajax 吧 08/04 09:41
→ Dannvix:推薦你用 Firefox + LiveHTTPHeader 去看 request 08/04 17:59
→ einstein328:感謝樓上 提點, 在下會google一下其關鍵字 08/04 19:51
→ mantour:用wireshark看封包XD 08/04 22:45
推 cobrasgo:通常是用wireshark抓封包來看它實際到哪裡抓資料 08/07 23:52
→ cobrasgo:一定有規則就可以用力抓了 08/07 23:52
→ cobrasgo:我有cronjob每天自己會去抓期交所和證交所的一些資料 08/07 23:52