[問題] 如何將網站上的數十筆資料一口氣載下來？

作者poopoo888888 (阿川)

看板Python

標題[問題] 如何將網站上的數十筆資料一口氣載下來？

時間Thu Aug 11 17:22:07 2011

大家好小弟學web programming一陣子了是學Google App Engine並使用Python寫最近小弟受到一位長輩所託希望我將司法院法學資料檢索系統裡面的一部分判決書載下來作進一步data mining之用 http://jirs.judicial.gov.tw/Index.htm 例如：判決書查詢→台北地方法院、民事、檢索「保護中心」則會出現約100份判決書請問要怎麼樣將這100份判決書載下來呢？小弟之前有使用過Beautiful Soup　知道它可以做parse的動作是否就是利用它來載判決書呢？還是這件事有其他適合的工具可以使用　並不需要Beautiful Soup？煩請各位大大指點迷津　謝謝！ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.231.24.204

→ suzuke:我直覺想到是urllib這一類的加上HTMLParser? 08/11 23:54

推 shaopin:對呀, 應該很簡單, urllib2..加file.. 08/12 14:57

→ shaopin:抓無名小站圖片都用這招(誤) 08/12 14:58

→ kilfu0701:之前寫過spider抓大量網頁也用urllib2+beautiful soap 08/12 16:26

推 lovelycateye:urllib + regex 或許是一個方法? 我是這樣做啦 08/13 00:19

→ lovelycateye:雖然我parse的是這份csv http://goo.gl/Qs7VH 08/13 00:22

→ lovelycateye:http://goo.gl/k5YCS 我去Parse回來長的樣子 08/13 00:23

感謝各位大大用urllib2加上BeautifulSoup便解決 ※ 編輯: poopoo888888 來自: 61.231.24.139 (08/14 09:58)

推 hsnu114444:urlfetch 08/16 10:21

推 kynix:pyquery 用了你會愛上它 08/16 11:24