看板 Python 關於我們 聯絡資訊
大家好 小弟學web programming一陣子了 是學Google App Engine並使用Python寫 最近小弟受到一位長輩所託 希望我將司法院法學資料檢索系統裡面的一部分判決書載下來 作進一步data mining之用 http://jirs.judicial.gov.tw/Index.htm 例如:判決書查詢→台北地方法院、民事、檢索「保護中心」 則會出現約100份判決書 請問要怎麼樣將這100份判決書載下來呢? 小弟之前有使用過Beautiful Soup 知道它可以做parse的動作 是否就是利用它來載判決書呢? 還是這件事有其他適合的工具可以使用  並不需要Beautiful Soup? 煩請各位大大指點迷津 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.231.24.204
suzuke:我直覺想到是urllib這一類的加上HTMLParser? 08/11 23:54
shaopin:對呀, 應該很簡單, urllib2..加file.. 08/12 14:57
shaopin:抓無名小站圖片都用這招(誤) 08/12 14:58
kilfu0701:之前寫過spider抓大量網頁 也用urllib2+beautiful soap 08/12 16:26
lovelycateye:urllib + regex 或許是一個方法? 我是這樣做啦 08/13 00:19
lovelycateye:雖然我parse的是這份csv http://goo.gl/Qs7VH 08/13 00:22
lovelycateye:http://goo.gl/k5YCS 我去Parse回來長的樣子 08/13 00:23
感謝各位大大 用urllib2加上BeautifulSoup便解決 ※ 編輯: poopoo888888 來自: 61.231.24.139 (08/14 09:58)
hsnu114444:urlfetch 08/16 10:21
kynix:pyquery 用了你會愛上它 08/16 11:24