[問題] wget抓取網頁內容疑問!?

作者BIAO (超越自己)

看板Linux

標題[問題] wget抓取網頁內容疑問!?

時間Mon Jul 10 18:47:54 2017

各位板友大家好，想請問如果要用wget抓取網頁內容該如何操作呢? 我需要抓取http://24.23.159.200:8603/頁面的內容，但是用wget只能抓到html的標籤，懇請板上先進提供指引，謝謝大家。 -- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.193.176 ※ 文章網址: https://www.ptt.cc/bbs/Linux/M.1499683676.A.263.html

→ bamchisu: curl 07/10 19:14

→ kenduest: 那個算是動態網頁內容，裡面有 js 語法讓瀏覽器去進行 07/10 19:19

→ kenduest: 內容大概就是每隔一秒對某個 url 請求 07/10 19:26

→ kenduest: timeout 1 curl http://24.23.159.200:8603/stream 07/10 19:26

→ kenduest: 測試看看 07/10 19:26

→ BIAO: 謝謝二位，真的可以了!curl為什麼可以撈到後端產生的資料呢? 07/10 20:36

→ BIAO: 如果我要寫個爬蟲程式，不用libcurl的話能夠做到嗎? 07/10 20:37

→ BIAO: 其實我想問的是這件事 XDDD 07/10 20:37

→ BIAO: 這個撈動態網頁資料的方式有沒有專有名詞呢? 07/10 20:47

→ BIAO: 主要是好像用python或node.js相對於Qt好像比較好爬蟲.. 07/10 20:48

→ BIAO: 但是因為需要直接用qt程式碼進行爬蟲，所以想和板友請教一下 07/10 20:49

→ CP64: 就只是去分析網頁的行為啊 07/10 21:20

→ CP64: 他做的事情就是去 http://24.23.159.200:8603/stream 07/10 21:21

→ CP64: 拉資料然後填充到網頁裡 07/10 21:22

→ CP64: 就是說你要的網頁只是骨架實際上內容是用 js 07/10 21:23

→ CP64: 拉東西下來然後填進骨架但是 wget 不會去處理 javascript 07/10 21:24

→ CP64: 所以你拉下來會是只有一點 html 07/10 21:24

→ CP64: 如果你用 wget http://24.23.159.200:8603/stream 也是有的 07/10 21:24

→ BIAO: 疑，對耶!wget也是有的，因為我一開始沒有加stream.. 07/10 21:39

※ 編輯: BIAO (61.230.201.147), 07/10/2017 22:31:17

→ BIAO: 原來有這種東西...XD 07/10 22:33

→ BIAO: 謝謝CP64大喔 ^^ 07/11 10:06