看板 R_Language 關於我們 聯絡資訊
大家好,不好意思我是小菜鳥,最近想要從司法院法學資料檢索系統抓取特定法條相關的 判決書內容,發現網站會限制顯示的筆數,例如總數2萬筆的資料,前台只會顯示500筆, 用R爬下來的資料,也只有500筆,在網路上爬了一陣子的文,找不太到相關的討論,想請 教各位先進,該怎麼做才能抓到完整的資料呢? 先謝謝提點了! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.111.239 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1602604562.A.7C7.html
locka: 有關爬蟲的問題基本上任何程式語言都是一樣的,就是模擬人 10/14 01:08
locka: 的操作方式,例如全部兩萬筆第一頁只顯示前五百筆,你會去 10/14 01:09
locka: 點下一頁,那麼爬蟲就是用程式碼下參數去取得第二頁之後的 10/14 01:09
locka: 資料,這部分概念細節跟html技術比較相關。說了這麼多,還 10/14 01:09
locka: 是建議你發問時明確一點,例如附上網址跟程式碼範例,不然 10/14 01:09
locka: 眾版友也是愛莫能助:) 10/14 01:09
andrew43: 司法院網站似乎是超過500筆則一律最多只給500筆,和分頁 10/14 16:52
andrew43: 造成的麻煩不太一樣。我想這是無解的,只能先做更精確的 10/14 16:53
andrew43: 查尋。 10/14 16:53
locka: 只給500這點滿奇怪的,意思是永遠都搜尋不到500筆以後的資 10/14 17:30
locka: 料嗎? 10/14 17:30
jack155861: 我爬過你必須做更精準查詢 10/18 08:12
jack155861: 而且司法站網站似乎很怕別人爬 三不五時改版... 10/18 08:13