→ Hsins: 老實說, 是你基礎不好, 天瓏沒這麼難爬 08/16 23:20
→ Hsins: - 對方網站沒有太多的方式判斷你是不是要攻擊他, 對他來說 08/16 23:21
→ Hsins: 就是網路請求, 但這個請求如果太多太快, 對他來說可以用 08/16 23:22
→ Hsins: 這個特徵認為你是要攻擊。實際上,售票網站那種搶票狀況 08/16 23:22
→ Hsins: 對網站來說可以算是攻擊呀!因為會讓我伺服器無法正常處 08/16 23:23
→ Hsins: 理。你用自動化的方式去拿資料,沒有銷售行為,對他來說 08/16 23:24
→ Hsins: 也是種攻擊。 08/16 23:24
→ Hsins: - robots.txt 並不會影響你送請求跟返回的訊息,他是給一 08/16 23:25
→ Hsins: 些遵守規範的人/程式看的,有些自動化爬蟲程式看到不允 08/16 23:25
→ Hsins: 就不會去爬他,當然你的爬蟲也可以忽略他的聲明繼續爬, 08/16 23:26
→ Hsins: 順帶一提,如果對方 robots.txt 言明不想被爬但你還用自 08/16 23:26
→ Hsins: 化手段獲取資料,在某些國家是違法行為會吃官司的。 08/16 23:27
→ Hsins: - 一樓的推文被你編輯文章刪掉了,我想他要說的是你想要的 08/16 23:28
→ Hsins: 資料,都可以在請求後所拿到的 HTML 原始文件中取得,而 08/16 23:28
→ Hsins: 這些資料被放在 <header> 元素中 08/16 23:29
既然書店不願意,那就不浪費時間了!
→ Kitten1156: 知道有robot.txt 08/17 00:43
推 Kitten1156: 知道有robot.txt 08/17 00:43
→ Kitten1156: 但是從來沒去認真看他 哈 08/17 00:44
推 poototo: 降低爬速,加proxy 08/17 08:31
還是有沒有Amazon Python API的使用sample AMAZON API應該就合法了吧?
但是沒有Amazon ISBN的使用手冊!
※ 編輯: mejichoco (101.137.209.158 臺灣), 08/17/2021 16:36:59
→ mantour: 我爬出來都很正常耶, 你是怎麼爬得要不要說一下 08/18 22:55