作者tses89214 (幻想天空)
看板R_Language
標題[問題] 網路爬蟲相關問題
時間Tue Jun 6 23:39:11 2017
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
入門(寫過其他程式,只是對語法不熟悉)
[問題敘述]:
各位好,我想要抓取旅遊網站上面的金額的資訊,就是橘色的NT$的部分
https://goo.gl/rTUzDp (網址過長所以縮了一下)
但因為沒有處理過動態的網站而卡關,
目前進度是使用read_html以及readLines這兩個function試過,
發現抓到東西的與看到的網頁原始碼不一樣。
從開發者工具雖然有看到幾個.js的項目,
卻不太知道該用GET或是POST什麼東西給他們,
所以想問:該用什麼方法才能得到想要的資料呢?
謝謝!
PS.只要能拿到網頁的原始碼就行了,後面的文字處理我可以自己來。
[關鍵字]:
網路爬蟲
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.119.176.235
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1496763553.A.9C0.html
→ tses89214: 感謝!! 我試試看!! 06/07 00:02
→ tses89214: C大您好,我嘗試後發現得到的東西還是不一樣,是不是在 06/07 00:22
→ tses89214: 程式上面我有寫錯呢? 06/07 00:22
→ tses89214: 使用POST似乎導向了不對的網址 06/07 00:26
→ tses89214: 也有試過在原網址後面加上?fp_count=1,結果也是同樣 06/07 00:35
→ tses89214: 在GET的部分將fp_count改成=2就可以了(不清楚為什麼 06/07 12:29