看板 Python 關於我們 聯絡資訊
我將某網站產品資訊的網頁通通下載下來 也就是先去Parse所有產品的List以及各個產品網頁的連結 然後再針對每個產品去下載網頁資訊 並儲存再本機電腦硬碟上 但我需要長久使用這樣的database並且隨時注意是否有更新 若是先去urlopen所有連結 並read網頁資訊再與已下載建檔的比對 似乎不太好 擔心下載流量太大而被封鎖 所以目前是希望先去檢查產品線的List是否有變動(有新產品或是產品停產而被移除) 另外持續供貨的既有產品 則打算先去檢視產品連結的網頁是否有更新 再決定是否讀網頁 但是我不知道要怎麼去獲得網站上網頁修改的時間及日期資訊 也不知道要從何著手 希望高人能指點 萬分感激 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 203.77.52.127 ※ 編輯: leondemon 來自: 203.77.52.127 (01/13 23:27) ※ 編輯: leondemon 來自: 203.77.52.127 (01/13 23:29)
AndCycle:看主機回傳的header有沒有Last-Modified的欄位 01/13 23:44
leondemon:是html的header嗎?還是...? 抱歉 我不太懂 >"< 01/13 23:53
os653:去看 dive into python 關於 http 那章,網路上有免費中文版 01/14 01:24
os653:剛好有說到如何判斷網頁更新,Last-Modified,ET-tag 那些 01/14 01:24
os653:沒記錯的話,他的範例好像就已經符合你的需求囉 01/14 01:26
leondemon:好~ 我會去找看看 感謝兩位分享資訊 01/14 20:28