作者leondemon (狗狗)
看板Python
標題[問題] 有辦法知道網頁的建檔時間嗎?
時間Wed Jan 13 23:26:17 2010
我將某網站產品資訊的網頁通通下載下來
也就是先去Parse所有產品的List以及各個產品網頁的連結
然後再針對每個產品去下載網頁資訊 並儲存再本機電腦硬碟上
但我需要長久使用這樣的database並且隨時注意是否有更新
若是先去urlopen所有連結 並read網頁資訊再與已下載建檔的比對 似乎不太好
擔心下載流量太大而被封鎖
所以目前是希望先去檢查產品線的List是否有變動(有新產品或是產品停產而被移除)
另外持續供貨的既有產品 則打算先去檢視產品連結的網頁是否有更新 再決定是否讀網頁
但是我不知道要怎麼去獲得網站上網頁修改的時間及日期資訊
也不知道要從何著手 希望高人能指點
萬分感激
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 203.77.52.127
※ 編輯: leondemon 來自: 203.77.52.127 (01/13 23:27)
※ 編輯: leondemon 來自: 203.77.52.127 (01/13 23:29)
→ AndCycle:看主機回傳的header有沒有Last-Modified的欄位 01/13 23:44
→ leondemon:是html的header嗎?還是...? 抱歉 我不太懂 >"< 01/13 23:53
→ os653:去看 dive into python 關於 http 那章,網路上有免費中文版 01/14 01:24
→ os653:剛好有說到如何判斷網頁更新,Last-Modified,ET-tag 那些 01/14 01:24
→ os653:沒記錯的話,他的範例好像就已經符合你的需求囉 01/14 01:26
→ leondemon:好~ 我會去找看看 感謝兩位分享資訊 01/14 20:28