看板 java 關於我們 聯絡資訊
※ 引述《mahoihei (Alvar)》之銘言: 先給上我要解析的網站 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 116.49.240.161
mahoihei:順便問一下,XML的PARSER可以用來讀HTML嗎 06/11 21:29
nanashi07:解析HTML請先處理容錯問題,不是每個網站的html source都 06/11 22:43
nanashi07:是符合結構的,可以參考htmlcleaner 06/11 22:44
mahoihei:"合符結構"是什麼意思??? 06/11 23:22
有起始tag 就要有結束tag 不然就是單一的<XXX/> tag 總之就是寫網頁的人tag亂寫 你要的話就抓li自己再過濾 寫htmlparser 的人怎麼可能會知道 你要去處理一個錯的網頁 就算你用swing的那個html parser 也是要自己處理錯的網頁tag -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.230.71.169 ※ 編輯: cklonger 來自: 61.230.71.169 (06/12 00:56)
mahoihei:感謝,大約明白了,我HTMLCLENNER抓來用看看 06/12 09:35