看板 Python 關於我們 聯絡資訊
最近在練習寫爬蟲,決定把全台灣影城的電影時刻表當作爬蟲的練習對象。 第一次爬了威秀影城,比較簡單,搞定了。 第二次爬了環球影城,雖然似乎只能爬到當日的時刻表,但也沒什麼問題。 第三次挑戰秀泰影城,發現他的時刻表資訊沒有秀在前端HTML上? https://www.showtimes.com.tw/events?corpId=8 仔細觀察,他在載入網頁時,會轉一個「請稍候」然後才顯示內容。 於是我使用Chrome的右鍵「檢查」工具。 發現兩個問題: 1.為什麼在網頁上點右鍵顯示原始碼,出現的是隱藏資訊的原始碼,然後在「檢查」工具 中的 Elements 欄位會顯示比較詳細的原始碼呢? 但偏偏,我使用BeautifulSoup抓上面那個連結時,他抓的是「顯示網頁上右鍵原始碼版 本」的。 所以我怎麼印都印不出來我想要的那個「電影時刻」。 2.更進一步,我在「檢查」工具中的Network欄位中觀察,選擇XHR,看看有沒有相關的AP I,果然被我找到了! 示意圖 https://i.imgur.com/UYEZs3b.png https://capi.showtimes.com.tw/1/events/listForCorporation/8?date=2017-12-20&li mit=2000 但是在使用線上JSON工具檢查後,發現資訊不是我要的。 示意圖 https://i.imgur.com/tH12ulr.png 有大大找過秀泰影城的時刻資訊嗎? #他隱藏得太深,我找得好苦。 #覺得秀泰在躲我。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.151.83 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1513741999.A.A58.html ※ 編輯: students (180.217.151.83), 12/20/2017 11:57:32
tedwu2001: events裡面的startedAt就是時刻,只是要自己換成GMT+8 12/20 12:14
tedwu2001: 底下programs對應影片,venues對應廳號就想辦法mapping 12/20 12:16
dododavid006: 關於 1 原始碼那個是直接抓 html 下來 但是 Element 12/20 12:18
dododavid006: 那頁會包含 js 執行完的結果 所以會比較多東西 12/20 12:18
dododavid006: 應該說 Element 那頁會反應目前網頁的狀態 12/20 12:20
students: 原來如此,謝謝兩位大大 12/20 12:26