看板 Soft_Job 關於我們 聯絡資訊
我想要做一隻可以從網路擷取資料並分析利用的程式, 我的初步想法如該圖 http://ppt.cc/a3Ve 1.擷取網頁碼我算用httpwebrequest(httpWebresponse)或WebBroswer技術 2.分析資料用regularExpression 3.介面顯示用datagridview 4.資料EXCEL匯出則用NPOI 但目前我苦無想法與來源來為這隻程式注入生命, 大家有什麼idea嗎? 註:個人使用語言是VB.NET -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.85.177.195 ※ 文章網址: http://www.ptt.cc/bbs/Soft_Job/M.1399856344.A.616.html ※ 編輯: d25702 (219.85.177.195), 05/12/2014 09:03:53
GoalBased:去撈色情網站,幫我推薦一部好看的,個人喜歡日系口味 05/12 09:09
Newtype:各國運彩賭盤之類的XD 05/12 09:11
ProGuy:現在有不少要跑過js之後網站內容才會出來的網站 05/12 09:28
ProGuy:有興趣的話請google casper.js 05/12 09:29
x000032001:去撈股票資料 05/12 09:54
pcyu16:facebook什麼的 最近公民議題應該有不少都需要這類東西 05/12 09:59
Tormentor:我撈公司有在使用的軟體更新檔差不多就是類似這樣整理 05/12 11:35
d25702:的確~有一些網站第一手擷取的資料並不是所要的,而是要他跑 05/12 12:06
d25702:完javascript後才是所要的資料 05/12 12:07
d25702:我本來想撈新聞焦點的說,公民議題這個範圍還蠻廣泛的 05/12 12:16
LaPass:抓成人網站的那個我還真的有朋友寫過,不過不公開..... 05/12 13:03
x90050:最近為了搶限定版才寫了一隻在監控巴哈商城上架 05/12 13:11
LaPass:對了,好像有人寫出聯合pchome、露天、y拍之類的商城的中控 05/12 13:12
LaPass:系統去監控商品的上架跟下單..... 比原po講的複雜一點,但 05/12 13:13
LaPass:基本上的原理是一樣的 05/12 13:13
TonyQ:http://antispite.tonyq.org/ 我最近的業餘興趣作品。XD 05/12 15:17
TonyQ:網路留言的評估、回饋與分析。 05/12 15:17
yukari8:casper.js看起來真不錯 我還以為要用開源的JS引擎去處理 05/12 15:56
plover:國際麻將八番起胡的原始碼 05/12 16:15
bemaduro:最近也想做一個可以撈MLB 成績的網站!!! 05/12 16:24
ldkrsi:運動的數據資料不難抓 有些官網有json直接抓 05/12 17:57
yhaoo666:一樓這個我喜番 05/12 20:36
ayumiayayaai:第二點... 只用 regex 不算是"分析"資料吧 05/13 00:01
VVll:加個db吧,資料抓下來把分析後的資料寫入db變成資訊 05/13 00:29
ckaha:想好你要分析什麼 大概要哪些資料就準備開始處理ETL吧 05/13 00:37
d25702:感謝,我先實作第一版程式出來,再來與大家share交流一下。 05/13 14:11
kvjo:我都來抓 股票公司的營收盈餘 籌碼面 = = 05/13 14:23
kvjo:工作一忙 就沒時間弄成UI 和排schedule了 05/13 14:26
abola921:有興趣的話,去抓每天北市公車的資料然後分析他們預測到 05/13 23:35
abola921:站時間的誤差值,然後再幫個忙把那個路口誤差最大算出來 05/13 23:36
abola921:有餘力的話,再加個氣象變數,看下雨對預測的影響 QQ 05/13 23:38
pkmu8426:如果要用HtmlDocument結構去解析的話 可以參考下面這張圖 05/14 16:28
pkmu8426:http://imgur.com/NEu9yc9.jpg 概念差不多 應該有幫助 05/14 16:28
pkmu8426:對於單一元素 因為loading延遲的關係 所以除了timer 05/14 16:30
pkmu8426:也可以搭配迴圈的方式設個尋找條件 超過一定次數才放棄 05/14 16:30
pkmu8426:尋找該元素。 若考慮需要持續維護該程式 模組化和除錯機 05/14 16:31
pkmu8426:制的設計 才比較花時間 05/14 16:32
pkmu8426:對了Document.readyState屬性可檢查是否完成載入 05/15 18:08
pkmu8426:經常檢查 可盡量避免資料不夠完整 05/15 18:08