看板 Soft_Job 關於我們 聯絡資訊
分享一些從爬蟲開發角度 看這件事情的想法 1. SPA網站 2. request與response都打亂,迫使爬蟲開發必須爬JS找入口, 否則api吐回來也是一堆看不 懂的大便 3. JS打亂是一定要,不只工具打亂,開發上也故意寫得可讀性很差。 4. 讓JS在IE核心無法執行,使開發者不能用.net webbrowser模擬操作。 做到以上四點,爬蟲已經相當辛苦且效率差,加上不可避免要用server後端跑爬蟲,你就 可以從IP及agent下手逼迫他不斷pppoe。 做完這些後,你只要專心把平台做到第一,再有老二要撈你資料搶生意,也不用管他了。 電商吃得飽的,只有第一。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.73.52.224 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1475391321.A.057.html
neo5277: 這摸競爭,如果走高單價封閉式的服務呢? 10/02 15:02
dnabossking: 不知道也,防爬:直接做成flash,防api被接:設計一 10/02 15:03
dnabossking: 個一次性的key,做驗證。這樣也防不了嗎? 10/02 15:03
pttworld: 3.應該有二份。 10/02 15:16
brucetu: flash可以防爬,但是原原po說他要顧使用者體驗,flash最 10/02 15:39
brucetu: 近爭議有點大,怕chrome.ff哪天不支援了 10/02 15:39
abccbaandy: 基本上就是弄得麻煩點,人家懶得"搞"你了XD 10/02 16:02
abccbaandy: 話說最近碰到用openid登入,然後token只有24hr... 10/02 16:02
abccbaandy: 然後那個token今天叫key,隔天叫auth_id XD 10/02 16:03
turtleknight: 5.然後你就自爆惹 10/02 16:46
jlhc: 你這設計我也覺得會自爆... 10/02 19:54
manaup: 這麼麻煩 我都學Yahoo做錯誤999 或是對爬蟲送假資料 10/02 21:57
manaup: 爬蟲一切運作正常可是資料有時真有時假才是最麻煩的 10/02 21:58
knives: 這樣不會 過度設計了嗎 10/03 12:05
abola921: 放假資料就好了阿,真的不用設計那麼多啦 10/03 12:57
abola921: 開放在外的api,再怎麼防你也防不了的 10/03 12:58
abola921: 唯有假資料,可以嚇阻 10/03 12:59
bndan: 其實只要做到逼對方解JS 加上JS不是常用的第三方..這門檻就 10/03 14:04
bndan: 很容易高到讓對方再找其他源頭了 10/03 14:05
konanno1: 水喔 10/03 18:28