作者qheroq (Enjoy My Life)
看板Python
標題[問題] 抓網頁的問題
時間Tue Apr 13 17:40:54 2010
最近才開始接觸Python,希望拿來抓網頁的資訊
但是一直碰到瓶頸...希望板上常抓網頁的高手能指點一下!
嘗試丟一些關鍵字到這個網站(書目資料庫)去抓結果回來:
http://dblp.mpi-inf.mpg.de/dblp-mirror/index.php
但是在使用urllib.urlopen後
在查看抓回來的html裡頭卻找不到螢幕上顯示的搜尋結果字串(要抓的目標物)
後來我再那個頁面點右鍵,觀看原始檔也找不到
但是! 若是直接另存新檔(完整網頁)抓回電腦來看 ,就可以找到我要的字串了
例如這個結果頁面
http://tinyurl.com/yba8p3l
那一筆書目紀錄的字串我完全無法在網頁原始碼裡頭看到
一定要抓回電腦(而且要選完整網頁)才能在<!== Hits ==>後面找到
所以在這種情形下,請問我該如何用python去抓那些搜尋結果的字串
因為單純用urllib都只是抓到沒有搜尋結果的原始檔回來而已
連想用正規表示法都不行...
--
以上,希望能幫我解答一下
謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.180.213
→ Dannvix:搜尋是用 AJAX,所以必須研究他的 JS 去找看看哪裡撈資料 04/13 18:28
→ qheroq:謝謝兩位 我馬上研究一下^^ 04/14 07:29