作者VVll (J.)
看板Soft_Job
標題Re: [討論] 資料擷取程式發想
時間Tue May 13 00:24:56 2014
※ 引述《d25702 (DOTA)》之銘言:
: 我想要做一隻可以從網路擷取資料並分析利用的程式,
: 我的初步想法如該圖 http://ppt.cc/a3Ve
: 1.擷取網頁碼我算用httpwebrequest(httpWebresponse)或WebBroswer技術
: 2.分析資料用regularExpression
: 3.介面顯示用datagridview
: 4.資料EXCEL匯出則用NPOI
: 但目前我苦無想法與來源來為這隻程式注入生命,
: 大家有什麼idea嗎?
: 註:個人使用語言是VB.NET
以最近工作在碰的來說
不停抓不同來源網站的資料
C# .Net
主要用了兩個方法
1. webClinet
優點
可以設定非同步下載,跟設定proxy,還有completed事件好處理
缺點
無timeout可使用,若使用到有狀況的網路情況, 連線會卡住
必須自己寫個timer去處理逾時
無法處理javascript,它只能抓純文字資料/檔案內容
2. webBrowser
優點
可執行javascript,其實它就是個瀏覽器,是以ie為基底
若要設定proxy的話,比較特別是直接設定ie瀏覽器的proxy
所以若同時用webbrowser抓不同來源的資料,又需要設定proxy就會很恐怖
缺點
沒有明確的download completed事件可以處理,它就是瀏覽器
會一直保持連線,所以要判斷資料有沒有正確抓下來得到就很麻煩
還有proxy使用也是
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.240.239.100
※ 文章網址: http://www.ptt.cc/bbs/Soft_Job/M.1399911899.A.819.html
→ TonyQ:要用 web browser 的話倒不如用 phantomjs. XD 05/13 01:54
推 d25702:感謝,受教了~ 05/13 14:09