看板 Linux 關於我們 聯絡資訊
各位板友大家好, 想請問如果要用wget抓取網頁內容該如何操作呢? 我需要抓取http://24.23.159.200:8603/頁面的內容, 但是用wget只能抓到html的標籤, 懇請板上先進提供指引,謝謝大家。 -- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.193.176 ※ 文章網址: https://www.ptt.cc/bbs/Linux/M.1499683676.A.263.html
bamchisu: curl 07/10 19:14
kenduest: 那個算是動態網頁內容,裡面有 js 語法讓瀏覽器去進行 07/10 19:19
kenduest: 內容大概就是每隔一秒對某個 url 請求 07/10 19:26
kenduest: timeout 1 curl http://24.23.159.200:8603/stream 07/10 19:26
kenduest: 測試看看 07/10 19:26
BIAO: 謝謝二位,真的可以了!curl為什麼可以撈到後端產生的資料呢? 07/10 20:36
BIAO: 如果我要寫個爬蟲程式,不用libcurl的話能夠做到嗎? 07/10 20:37
BIAO: 其實我想問的是這件事 XDDD 07/10 20:37
BIAO: 這個撈動態網頁資料的方式有沒有專有名詞呢? 07/10 20:47
BIAO: 主要是好像用python或node.js相對於Qt好像比較好爬蟲.. 07/10 20:48
BIAO: 但是因為需要直接用qt程式碼進行爬蟲,所以想和板友請教一下 07/10 20:49
CP64: 就只是去分析網頁的行為啊 07/10 21:20
CP64: 他做的事情就是去 http://24.23.159.200:8603/stream 07/10 21:21
CP64: 拉資料 然後填充到網頁裡 07/10 21:22
CP64: 就是說 你要的網頁只是骨架 實際上內容是用 js 07/10 21:23
CP64: 拉東西下來 然後填進骨架 但是 wget 不會去處理 javascript 07/10 21:24
CP64: 所以你拉下來會是只有一點 html 07/10 21:24
CP64: 如果你用 wget http://24.23.159.200:8603/stream 也是有的 07/10 21:24
BIAO: 疑,對耶!wget也是有的,因為我一開始沒有加stream.. 07/10 21:39
※ 編輯: BIAO (61.230.201.147), 07/10/2017 22:31:17
BIAO: 原來有這種東西...XD 07/10 22:33
BIAO: 謝謝CP64大喔 ^^ 07/11 10:06