推 yanli2:直接幫你寫程式讓你自己抓? 08/15 02:00
→ jlovet:樓上,這樣怎麼知道到底抓了多少,一邊說可以抓一千萬 08/15 02:10
→ jlovet:一邊說我只抓到一千 08/15 02:10
推 pfory:程式抓不難,但是很容易沒幾筆就被鎖IP了 08/15 09:14
推 WolfLord:配合多張網卡與撥號程式應該可解 08/15 10:02
→ superpai:無名真正有在使用的ID有沒有1百萬都不知道@@ 08/15 10:10
→ LewisHamiltn:重點是速度..案主好像很急 我昨天開程式抓幾個小時 08/15 10:33
→ LewisHamiltn:也不過幾萬筆 要350萬看來要多機器+map reduce.. 08/15 10:33
推 makiyolove:我抓到2W5就被999了ˊˋ 08/15 11:32
推 abcabcabc:1台機器就可以了 多線程 同時每個給不同表頭 08/15 14:20
→ abcabcabc:必要時定期切ip 我以前看過網路上有人有寫 08/15 14:21
→ abcabcabc:大概10多分鐘可以抓百萬筆左右 08/15 14:21
推 WolfLord:不要看我,不是我....(逃) 08/15 20:21
→ slalala:各位請教一下 如果像Java HttpClient4同instance做request 08/15 20:43
→ slalala:一樣也會出現999嗎??(具體觀念意思是同一session) 08/15 20:43
推 WolfLord:那個重點在於伺服端怎麼指認你,而你要如何不讓對方辨識 08/15 20:59
→ stdlib:有前輩可以提供些關鍵字嗎,我也想試著處理這類問題,謝謝! 08/15 21:32
→ TonyQ:http client / proxy / html parser / crawler 08/15 21:42
→ TonyQ:扯到 wolf 講的東西的話,可能會需要再加上route/pppoe 08/15 21:43
推 abcabcabc:999是被yahoo買下之後才會有的新計倆吧? 08/15 22:20
→ abcabcabc:tony講的都關鍵字 proxy的話 至少我以前試簡單切proxy法 08/15 22:22
→ abcabcabc:對加了999後的yahoo沒效果 他發現了我的陰謀 得再加料? 08/15 22:23
推 WolfLord:先思考一下:IE連上去後會回報什麼,以及SERVER會到什麼 08/16 02:39
→ WolfLord:然後你能夠變動什麼?這樣仔細想想自然發現他拿什麼指認 08/16 02:39
→ WolfLord:而你也可以拿什麼呼楞對方..... 08/16 02:40
推 aadean:有意思..但來源ip有辨法用程式修改嗎? 08/16 11:02
推 Marty:樓上 用proxy.... 08/16 12:34
推 WolfLord:一般OPEN PROXY都會被列入黑名單,用PROXY很難躲的。除非 08/16 23:53
→ WolfLord:放蠱攻佔殭屍堡壘,不過這樣是違法的。但是ADSL帳號爛掉 08/16 23:54
→ WolfLord:就爛掉,你目標達到就好....所以最佳解是多張網卡勤換IP 08/16 23:55
→ runtime:我以前抓過 手上應該不只350萬 我是WARM的作者 請來信恰談 08/20 00:54
推 runtime:你們都想太多了 其實無名有Bug可以跳過999 08/20 11:05
推 runtime:三年前的Bug沒想到留到現在還在...XD 08/20 11:07
→ runtime:可以思考看看 什麼東西很頻繁存取 卻又不會被擋下來 08/20 11:07
→ TonyQ:真的假的 這也太帥了 XD 08/21 18:51
推 wansincere:這真的是不錯的課題 感謝分享 09/01 17:14
推 xxxx9659:頻繁存取 卻又不會被擋下來 蜘蛛人嗎? 是嗎是嗎? 09/03 23:59
→ hanbz:建立免洗新帳號? 09/14 06:03
→ hanbz:還是透過yahoo的搜尋引擎去做網路蜘蛛? 09/14 06:04