→ mahoihei:順便問一下,XML的PARSER可以用來讀HTML嗎 06/11 21:29
→ nanashi07:解析HTML請先處理容錯問題,不是每個網站的html source都 06/11 22:43
→ nanashi07:是符合結構的,可以參考htmlcleaner 06/11 22:44
→ mahoihei:"合符結構"是什麼意思??? 06/11 23:22
有起始tag 就要有結束tag
不然就是單一的<XXX/> tag
總之就是寫網頁的人tag亂寫
你要的話就抓li自己再過濾
寫htmlparser 的人怎麼可能會知道
你要去處理一個錯的網頁
就算你用swing的那個html parser
也是要自己處理錯的網頁tag
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.230.71.169
※ 編輯: cklonger 來自: 61.230.71.169 (06/12 00:56)
推 mahoihei:感謝,大約明白了,我HTMLCLENNER抓來用看看 06/12 09:35