[問題] 網路爬蟲

作者einstein328 (pica)

看板Python

標題[問題] 網路爬蟲

時間Tue Aug 3 21:38:27 2010

hay, 我最近試著想寫一個爬蟲, 能抓下面網站的所有資料 http://mops.twse.com.tw/mops/web/index --------------------------------------- 我先把問題簡化成抓某一個特定網頁, 如下 http://mops.twse.com.tw/mops/web/t05st31 我發現一些問題, 我在 [公司代號或簡稱] 輸入不同的數字, 例如 : 2041 或是 2043, 在按搜尋, 並檢視其網頁原始檔, 找不到相對應的資料出現. 這是為什麼阿?? p.s 我略懂python, 但網頁技術, 還未熟悉, 問太蠢的話請見諒. p.p.s 我打算用 Scrapy, 來寫爬蟲, 請前輩給一些建議. -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 122.121.205.2

推 ypcat:因為是 ajax 吧 08/04 09:41

→ Dannvix:推薦你用 Firefox + LiveHTTPHeader 去看 request 08/04 17:59

→ einstein328:感謝樓上提點, 在下會google一下其關鍵字 08/04 19:51

→ mantour:用wireshark看封包XD 08/04 22:45

推 cobrasgo:通常是用wireshark抓封包來看它實際到哪裡抓資料 08/07 23:52

→ cobrasgo:一定有規則就可以用力抓了 08/07 23:52

→ cobrasgo:我有cronjob每天自己會去抓期交所和證交所的一些資料 08/07 23:52