作者storypp (隨風而逝的是一份真)
看板java
標題[問題] httpclient遇到#document
時間Thu Oct 20 21:05:43 2016
我使用HttpClient要抓網頁原始檔
可是只要遇到網頁內含有
#document
該段就會被跳過
如圖一
http://i.imgur.com/VBDQIgC.png
這個網頁用chrome的檢查可以看到裏面有一段
#document的內容
可是當我使用HttpClient搭配HttpGet之類的要把原始檔抓下來,
結果變成圖二
http://i.imgur.com/OmN99yt.png
可以看到
#document一直到</frame>中間的內容全部消失
想請教大家都如何解決這種問題?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.35.252.180
※ 文章網址: https://www.ptt.cc/bbs/java/M.1476968746.A.944.html
→ ssccg: 那就是frame裡的另一個網頁,你要parse frame的src另外發一 10/20 21:36
→ ssccg: 個reuqest去抓才會有,#document只是chrome開發者工具標示 10/20 21:36
→ ssccg: frame中另一個網頁內容的方式而已 10/20 21:37
→ ssccg: 另外Elements是chrome建的DOM,原始檔是Sources那個分頁的 10/20 21:39