看板 Soft_Job 關於我們 聯絡資訊
想問下各位前輩 目前要開發擷取網頁的技術 一個是有API 直接讓C#去讀取XML資料 一個是不提供 API 直接用crawler方式 去抓 但是crawler方式 似乎無法跟讀取 XML節點一樣 有效整理我所要的擷取內容 crawler似乎只能傳一堆網站資料進來 但我如何用crawler技術有效擷取我所要的資訊 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.129.46.206 ※ 文章網址: http://www.ptt.cc/bbs/Soft_Job/M.1403776201.A.7C2.html
pig22022:Crawler應該可以照你想要抓的tag來撈資料 只是撈回來自己 06/26 17:57
pig22022:要再parse 06/26 17:57
StupidGaGa:你這問題應該要在C#板上問 06/26 18:00
StupidGaGa:我可以給你一個關鍵字,Html Agility Pack 06/26 18:00
StupidGaGa:我自己也開發過爬蟲專案,這東西不錯用 06/26 18:01
wakaw:推HAP 06/26 19:36
kiii210:xpath..regular expression都可以啊 06/26 20:35
StupidGaGa:樓上,你別鬧了,正規表示法根本不好用。 06/27 02:28
StupidGaGa:xpath…請問你是用什麼東西搭配xpath? 06/27 02:29
up9cloud:推kiii210的regex,至於樓上.如果njpp是限定c#抓XML資料 06/27 03:57
up9cloud:那你說的很對,但若不是。我只能ㄏㄏ了... 06/27 03:58
leeheng:正規表示法不好用?可是你用的parser跟compiler都是用正規 06/27 09:28
leeheng:表示法再爬抓回來的網頁和你的程式耶 06/27 09:29
chatnoir:正規表示法不好用.... 06/27 12:10
那到底該用Html Agility Pack 還是 正規表示法? 如果無解我能去科技板 或是對岸 專業論壇找答案... PTT C#很少人... ※ 編輯: njpp (36.231.153.10), 06/27/2014 12:38:23
StupidGaGa:請用HAP,用正規表示法的我只能說,根本自爽 06/27 16:03
StupidGaGa:我用過單純字串處理、正規表事法、HAP,相信我 06/27 16:04
StupidGaGa:HAP第三方的dll真的好用太多了,尤其是解析網頁 06/27 16:05
StupidGaGa:而且HAP也是用xpath去解析,不僅靈活度高,易讀性也高 06/27 16:06
StupidGaGa:PTT C#版人多,不過大多都學生,有時候業界人的話會無 06/27 16:09
StupidGaGa:法認同 06/27 16:10
StupidGaGa:如果樓主無法決定用哪個,你就兩個都用,你就知道差異 06/27 16:11
StupidGaGa:另外C#抓XML沒人再用HAP也沒用正規,是用class去轉 06/27 16:13
StupidGaGa:up9cloud真的寫過C#嗎?我很懷疑你的經驗 06/27 16:15
gary62107:兩個都用過,正規表示式學習曲線高,但彈性 powerfull 06/28 01:41
gary62107:HAP方便,但過於依賴也不太好... 06/28 01:42
iceonly:順便問問有沒有java的,然後完美解決ajax的 06/28 15:36
iceonly:htmlunit不穩定 06/28 15:37
coronach:要完美解決ajax要做的事太多了 htmlunit已經不錯了... 06/28 22:42
HYL:Google花了 15 年才解決 AJAX 的問題,這問題不好解阿~ 06/28 23:47