[問題] httpclient遇到#document

作者storypp (隨風而逝的是一份真)

看板java

標題[問題] httpclient遇到#document

時間Thu Oct 20 21:05:43 2016

我使用HttpClient要抓網頁原始檔可是只要遇到網頁內含有 #document 該段就會被跳過如圖一 http://i.imgur.com/VBDQIgC.png 這個網頁用chrome的檢查可以看到裏面有一段#document的內容可是當我使用HttpClient搭配HttpGet之類的要把原始檔抓下來，結果變成圖二 http://i.imgur.com/OmN99yt.png 可以看到#document一直到</frame>中間的內容全部消失想請教大家都如何解決這種問題？ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.35.252.180 ※ 文章網址: https://www.ptt.cc/bbs/java/M.1476968746.A.944.html

→ ssccg: 那就是frame裡的另一個網頁，你要parse frame的src另外發一 10/20 21:36

→ ssccg: 個reuqest去抓才會有，#document只是chrome開發者工具標示 10/20 21:36

→ ssccg: frame中另一個網頁內容的方式而已 10/20 21:37

→ ssccg: 另外Elements是chrome建的DOM，原始檔是Sources那個分頁的 10/20 21:39