[詢問] IMPORTXML&HTML 限制問題

作者neil0123 (wow)

看板Google

標題[詢問] IMPORTXML&HTML 限制問題

時間Mon Aug 2 02:22:31 2021

Hi ALL 小弟最近想做個資料分析，想抓一些yahoo 上的新聞回來分析目前想用這個網址 https://tw.news.yahoo.com/world 所以有幾個問題，想請問 1. importxml 好像有網址長度的限制, 有什方式可解決? 系統說：指定網址內容的資源超出大小上限。 https://imgur.com/QpjwYsD 2. importxml or importhtml 有什辦法可取得資料時又同時取得網址? 又或者有什其它參數or 工具可取得? https://imgur.com/ynz7L5x 3. importhtml 會只抓第一頁資料，有什方式可以讓它也會向下滾動，可以去抓第二頁以上的資料? 像是https://tw.news.yahoo.com/world，他預設只能顯示一頁資料，可必需要偵測到下滾的動作，才會顯示第二頁的資料。 4. importxml or importhtml抓的資料，會同一格去顯示多行的資料，有什指令可以讓他切成多行? 請多指教，謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.99.151 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Google/M.1627842154.A.2C0.html

推 microloft: 1. 超出大小的是網頁內容，不是網址 08/02 09:08

→ microloft: 2. 用 XPath 自行篩選出超連結的 href 屬性 08/02 09:10

→ microloft: 3. 這種動態載入的網頁，要去找背後 XHR 的網址跟參數 08/02 09:18

→ microloft: 然後再用該網址跟參數去抓資料 08/02 09:18

推 PsMonkey: 考慮用傳統程式語言的方式去解決吧，不然 AppSheet 也好 08/02 20:06

→ PsMonkey: ㄟ等等，不是 AppSheet，我是說指令碼編輯器.. 08/02 20:08

→ neil0123: 感謝兩位，偶會把他寫成AppScript，只是XHR還找不到範例 08/02 23:34

→ neil0123: 還不清楚要怎看XHR的網址跟參數 08/02 23:36

推 PsMonkey: 最直接的方式就是用 Chrome DevTool 看 network 08/03 05:45

→ PsMonkey: 最保險的方式是從上面的方式再去追 source code 怎麼寫 08/03 05:47

→ PsMonkey: 但是有很高的機率不是你想像的那樣，除非 importXXX 08/03 05:48

→ PsMonkey: 不是我想像的那樣 XDDDD（謎之聲：哪樣？） 08/03 05:48