看板 java 關於我們 聯絡資訊
我使用HttpClient要抓網頁原始檔 可是只要遇到網頁內含有 #document 該段就會被跳過 如圖一 http://i.imgur.com/VBDQIgC.png 這個網頁用chrome的檢查可以看到裏面有一段#document的內容 可是當我使用HttpClient搭配HttpGet之類的要把原始檔抓下來, 結果變成圖二 http://i.imgur.com/OmN99yt.png 可以看到#document一直到</frame>中間的內容全部消失 想請教大家都如何解決這種問題? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.35.252.180 ※ 文章網址: https://www.ptt.cc/bbs/java/M.1476968746.A.944.html
ssccg: 那就是frame裡的另一個網頁,你要parse frame的src另外發一 10/20 21:36
ssccg: 個reuqest去抓才會有,#document只是chrome開發者工具標示 10/20 21:36
ssccg: frame中另一個網頁內容的方式而已 10/20 21:37
ssccg: 另外Elements是chrome建的DOM,原始檔是Sources那個分頁的 10/20 21:39