作者chrisleebos (chris)
看板Soft_Job
標題[請益] Web Data Extraction
時間Sun Jun 21 11:52:08 2009
請教大家
有人有研究過Web Data Extration嗎?
是不是所有網站的資料都可以抓到呢
我找到了一個Java-based的library叫Web Harvest
在試過他給的範例後發現有的網站可以抓的到資料
但是有的不行例如gmail或yahoo mail
尤其是gmail登入後的首頁開啟原始碼頁面發現
都是JSON格式的資料已經不是一般的HTML頁面
請問有人有實作過或研究過Web Data Extraction的東西嗎?
有沒有軟體或library可以用在所有的網站上呢?
如果需要從底層寫要從哪邊著手? Java Scoket嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 75.53.47.129
推 Anonymoux:C# 06/21 15:28
推 cclien:直接從 browser 下手比較快,從 socket 開始刻太花功夫 06/22 23:56