[請益] crawler and API?

作者njpp (正妹真難找)

看板Soft_Job

標題[請益] crawler and API?

時間Thu Jun 26 17:49:58 2014

想問下各位前輩目前要開發擷取網頁的技術一個是有API 直接讓C#去讀取XML資料一個是不提供 API 直接用crawler方式去抓但是crawler方式似乎無法跟讀取 XML節點一樣有效整理我所要的擷取內容 crawler似乎只能傳一堆網站資料進來但我如何用crawler技術有效擷取我所要的資訊謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.129.46.206 ※ 文章網址: http://www.ptt.cc/bbs/Soft_Job/M.1403776201.A.7C2.html

推 pig22022:Crawler應該可以照你想要抓的tag來撈資料只是撈回來自己 06/26 17:57

→ pig22022:要再parse 06/26 17:57

推 StupidGaGa:你這問題應該要在C#板上問 06/26 18:00

→ StupidGaGa:我可以給你一個關鍵字，Html Agility Pack 06/26 18:00

→ StupidGaGa:我自己也開發過爬蟲專案，這東西不錯用 06/26 18:01

推 wakaw:推HAP 06/26 19:36

推 kiii210:xpath..regular expression都可以啊 06/26 20:35

→ StupidGaGa:樓上，你別鬧了，正規表示法根本不好用。 06/27 02:28

→ StupidGaGa:xpath…請問你是用什麼東西搭配xpath？ 06/27 02:29

推 up9cloud:推kiii210的regex,至於樓上.如果njpp是限定c#抓XML資料 06/27 03:57

→ up9cloud:那你說的很對，但若不是。我只能ㄏㄏ了... 06/27 03:58

推 leeheng:正規表示法不好用？可是你用的parser跟compiler都是用正規 06/27 09:28

→ leeheng:表示法再爬抓回來的網頁和你的程式耶 06/27 09:29

推 chatnoir:正規表示法不好用.... 06/27 12:10

那到底該用Html Agility Pack 還是正規表示法? 如果無解我能去科技板或是對岸專業論壇找答案... PTT C#很少人... ※ 編輯: njpp (36.231.153.10), 06/27/2014 12:38:23

→ StupidGaGa:請用HAP，用正規表示法的我只能說，根本自爽 06/27 16:03

→ StupidGaGa:我用過單純字串處理、正規表事法、HAP，相信我 06/27 16:04

→ StupidGaGa:HAP第三方的dll真的好用太多了，尤其是解析網頁 06/27 16:05

→ StupidGaGa:而且HAP也是用xpath去解析，不僅靈活度高，易讀性也高 06/27 16:06

→ StupidGaGa:PTT C#版人多，不過大多都學生，有時候業界人的話會無 06/27 16:09

→ StupidGaGa:法認同 06/27 16:10

→ StupidGaGa:如果樓主無法決定用哪個，你就兩個都用，你就知道差異 06/27 16:11

→ StupidGaGa:另外C#抓XML沒人再用HAP也沒用正規，是用class去轉 06/27 16:13

→ StupidGaGa:up9cloud真的寫過C#嗎？我很懷疑你的經驗 06/27 16:15

推 gary62107:兩個都用過，正規表示式學習曲線高，但彈性 powerfull 06/28 01:41

→ gary62107:HAP方便，但過於依賴也不太好... 06/28 01:42

推 iceonly:順便問問有沒有java的，然後完美解決ajax的 06/28 15:36

→ iceonly:htmlunit不穩定 06/28 15:37

推 coronach:要完美解決ajax要做的事太多了 htmlunit已經不錯了... 06/28 22:42

推 HYL:Google花了 15 年才解決 AJAX 的問題，這問題不好解阿～ 06/28 23:47