作者Sofya (千野羽)
看板java
標題[問題] 使用Java寫Web Crawler
時間Thu Dec 18 19:07:53 2014
各位好,
不確定該不該在Java版上問這個問題,因為內容有點牽涉到JavaScript
但是因為程式是用Java寫成,所以還是上來請教
最近工作上需要開始學習使用Java來撰寫Web Crawler
主要是去parsing 影音網頁上的一些資訊
但是遇到下面這個網站
http://www.cbs.com/shows/amazing_race/video/
我想要把Full Episodes --> 底下的每個影片的URL link都抓出來
然後再連結到各個link去,但是看了一下網頁原始碼,
影片的選單似乎是從JavaScript產生出來的
我嘗試用HtmlUnit去解析網頁後取得Link也無效
想請教有什麼方法可以取得Javascript動態產生的linkage
目前想到是自己呼叫內部的Javascript...但有點不知從何下手...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 69.181.159.126
※ 文章網址: http://www.ptt.cc/bbs/java/M.1418900877.A.31E.html
→ realmeat: 如果只對一個網站你不用考慮對js下手, 資料一定有來源 12/19 10:03
→ Sofya: 問題已經解決..用Chrome找到Json來源的URL..感謝 12/19 18:11