推 pig22022:Crawler應該可以照你想要抓的tag來撈資料 只是撈回來自己 06/26 17:57
→ pig22022:要再parse 06/26 17:57
推 StupidGaGa:你這問題應該要在C#板上問 06/26 18:00
→ StupidGaGa:我可以給你一個關鍵字,Html Agility Pack 06/26 18:00
→ StupidGaGa:我自己也開發過爬蟲專案,這東西不錯用 06/26 18:01
推 wakaw:推HAP 06/26 19:36
推 kiii210:xpath..regular expression都可以啊 06/26 20:35
→ StupidGaGa:樓上,你別鬧了,正規表示法根本不好用。 06/27 02:28
→ StupidGaGa:xpath…請問你是用什麼東西搭配xpath? 06/27 02:29
推 up9cloud:推kiii210的regex,至於樓上.如果njpp是限定c#抓XML資料 06/27 03:57
→ up9cloud:那你說的很對,但若不是。我只能ㄏㄏ了... 06/27 03:58
推 leeheng:正規表示法不好用?可是你用的parser跟compiler都是用正規 06/27 09:28
→ leeheng:表示法再爬抓回來的網頁和你的程式耶 06/27 09:29
推 chatnoir:正規表示法不好用.... 06/27 12:10
那到底該用Html Agility Pack 還是 正規表示法? 如果無解我能去科技板 或是對岸
專業論壇找答案... PTT C#很少人...
※ 編輯: njpp (36.231.153.10), 06/27/2014 12:38:23
→ StupidGaGa:請用HAP,用正規表示法的我只能說,根本自爽 06/27 16:03
→ StupidGaGa:我用過單純字串處理、正規表事法、HAP,相信我 06/27 16:04
→ StupidGaGa:HAP第三方的dll真的好用太多了,尤其是解析網頁 06/27 16:05
→ StupidGaGa:而且HAP也是用xpath去解析,不僅靈活度高,易讀性也高 06/27 16:06
→ StupidGaGa:PTT C#版人多,不過大多都學生,有時候業界人的話會無 06/27 16:09
→ StupidGaGa:法認同 06/27 16:10
→ StupidGaGa:如果樓主無法決定用哪個,你就兩個都用,你就知道差異 06/27 16:11
→ StupidGaGa:另外C#抓XML沒人再用HAP也沒用正規,是用class去轉 06/27 16:13
→ StupidGaGa:up9cloud真的寫過C#嗎?我很懷疑你的經驗 06/27 16:15
推 gary62107:兩個都用過,正規表示式學習曲線高,但彈性 powerfull 06/28 01:41
→ gary62107:HAP方便,但過於依賴也不太好... 06/28 01:42
推 iceonly:順便問問有沒有java的,然後完美解決ajax的 06/28 15:36
→ iceonly:htmlunit不穩定 06/28 15:37
推 coronach:要完美解決ajax要做的事太多了 htmlunit已經不錯了... 06/28 22:42
推 HYL:Google花了 15 年才解決 AJAX 的問題,這問題不好解阿~ 06/28 23:47