作者samrt5566 (我不是聰明56)
看板Web_Design
標題[問題] 如何改善ptt爬蟲速度?
時間Sun Oct 20 08:51:38 2019
嗨大家好
小弟最近無聊用nodejs和html寫了一個簡單的ptt爬蟲
目前基本上換頁和換版都是讓爬蟲再去爬一次下一頁
但發現這樣速度實在是慘不忍賭
逛了各大網頁版ptt
總覺得他們應該是用不同的方式在處理
請問各位大大 如果在寫這種網頁版有什麼訣竅嗎
還是說應該用不是爬蟲的方式去寫呢
感謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.58.91 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Web_Design/M.1571532700.A.23A.html
推 shter: 用 telnet 去爬
10/20 11:51
喔喔 來研究一下
推 vi000246: 他們應該都是爬好存在自己的DB了10/20 12:12
不過我看更新速度蠻快的 是固定時間直接爬所以板塊嗎
→ samchung: 先取出文章網址,直接爬網頁就省下換頁效能不佳的問題了10/20 15:39
看來是要事先抓好下一頁?
※ 編輯: samrt5566 (42.76.102.12 臺灣), 10/21/2019 00:51:35