作者PsMonkey (痞子軍團團長)
看板CodeJob
標題Re: [討論] 這個有可能達成嗎? 謝謝
時間Sun Oct 30 12:56:02 2011
※ 引述《k43582 (crab)》之銘言:
: 您好
: 監測某一個網站 當網站更新時
: 我有辦法獲得更新處的web page所對應的URL嗎?
: 附上說明文件http://www.megaupload.com/?d=6AQCBESD
: 有高手可以接下嗎..
: 錢可以討論
: 謝謝!
: 推 bestwishes:不太懂 說明文件中URL沒有變啊 用CURL重抓不就好了? 10/29 23:39
: → k43582:當只有子網頁更新就給我對應的URL 不要給root那個URL 10/30 00:11
: 推 PsMonkey:你是要對付 internet 所有網站,還是特定網站? 10/30 00:25
: → k43582:八成左右的網站 謝謝 10/30 10:35
對不起,我不是高手
只是看了一下原 po 的文章與推文
我想還是寫點東西,幫案主省點時間,應該也可以幫接案方省點時間
現在網路上有多少「網站」(先跳過明確的網站定義)
用最保守的算法,就當 1 億吧
八成也就是八千萬個網站
好,其實考慮背後系統的話,也沒有這麼多
各類 BPS、CMS 架出來的可能佔了不少比率
另外加上如果有 RSS 之類的輔助,那應該會快樂不少
所以,就算 100 種好了(因為我很喜歡《100 種生活》,OH-YEAH!)
這 100 種「網站」,每一種出血大放送
平均台幣 1K 就幫你 fetch/parse 好
你就要準備 100K
這還沒有算為了後續 mining 所作的前期準備、塞資料庫
能避開基本 ban ip 的排程系統....
這類系統分析、系統架構之類的東西
(反正前面的 code 都這麼出血大放送了,這些就當撒必死?)
硬體 resource 的部份總不能要接案方負責吧?
所以你還要有爆炸大的頻寬跟爆炸大的硬碟
跟爆炸快的機器跑 Database
這樣才有辦法對付網路上八成左右的網站
(當然,也可以一句「套分散式系統」來打發掉,反正出血大放送 XD)
如果你 or 其他高手嫌棄上面的說法太專業 or 太不切實際
那改個簡單、商業版的說法
假設 Google 現在只有 1/10 的 resource 在處理 search engine
你沒有要作內容分析,所以就當成只有 search engine 的 1/100 功能
加上你又只打算對付八成的網站
我是不知道 Google 的資金是多少
不過上頭的比率乘起來是 1/10 * 1/100 * 4/5 = 4/5000
再加上大家都在 CodeJob、都在台灣拼經濟的交情,再給你乘著 1/10
五萬分之四個 Google...
====
雖然我只是無聊來練打字
但我真的沒有要酸人的意思... Orz
--
錢鍾書:
說出來的話
http://www.psmonkey.org
比不上不說出來的話
Java 版 cookcomic 版
只影射著說不出來的話
and more......
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.25.9.199
→ k43582:比較網頁後 當有一條新聞出來 就丟出子網頁(更新的新聞) 10/30 15:34
→ k43582:有網路爬蟲幫忙sitemap也沒救嗎@@ 10/30 15:36
→ PsMonkey:你的八成網站裡頭有多少有 sitemap... 10/30 16:19
→ PsMonkey:更不用說 sitemap 其實也沒提供什麼資訊 10/30 16:21
→ bitlife:k大你舉的新聞網站,不就是有 sitemap 也不知道它更新嗎? 10/30 16:22
→ bitlife:一般 sitemap 不包含動態產生的部分. 10/30 16:22
→ k43582:b大 我不太了解 我那個有sitemap?? 謝謝 10/30 16:31
→ bitlife:我的意思是,你第2行推文的網站,就算有sitemap指到它,你也 10/30 17:26
→ bitlife:不知道該頁內含的連結是否有更動. 10/30 17:27
→ k43582:會先進行主網頁的比對 發現子網頁變動 再去下載子網頁部分 10/30 17:29
推 Prius:網站數目,全世界已經超過 2 億,數字還不斷飆升 10/30 17:38
→ whaskey:僅就你提供的連結的話你需要的是RSS 10/30 18:27
→ whaskey:在來如果你只是要應付一般的靜態網頁的話,只要不被BAN 10/30 18:28
→ whaskey:要做到是有可能的,如果像動態產生出來的網頁,甚至是用 10/30 18:29
→ whaskey:AJAX只做部分更新的話,妳很難去確認是否有更新。 10/30 18:29
推 k43582:所以動態網頁以我的要求是不可能的? 謝謝 只能文字網頁 10/30 18:39
→ thitbbeb:單純有新的新聞就更新似乎還可行,但不知你需求的detail 10/30 19:15