作者cloverlover (cloverlover)
看板Python
標題[討論] 新手請教 爬蟲拋出資料比對
時間Thu Feb 11 09:06:37 2021
概念描述 :
定時爬ptt八卦板,收尋特定字符後拋出line訊息
問題:
若定時爬出的資料為相同的,要如何建立確認機制?等到有不同的再拋出。
目前作法是將數據存成list,再拋出
但第二次跑時不知道如何前後資料比對
先謝謝各位指導
補充程式概述:
while True :
def getdata(url):
return 數據
Y = [ ]
Y. append(數據)
Line bot 拋出 Y
我想讓拋出的Y有辦法做前後比對,有差別後再拋line bot
主要卡在Y再跑第二次時會覆蓋第一次就無法比對
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 112.78.78.250 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1613005599.A.CD8.html
推 supremebboy: 搜尋02/11 09:38
→ penut85420: 考慮看看hash02/11 10:23
推 aidansky0989: 用set存,當set長度增加時跳出通知02/11 11:02
推 TitanEric: hash checksum02/11 12:36
※ 編輯: cloverlover (112.78.78.250 臺灣), 02/11/2021 13:05:19
※ 編輯: cloverlover (112.78.78.250 臺灣), 02/11/2021 13:07:27
推 TitanEric: 用另一個set存之前抓下來的文件checksum 存之前先用i 02/11 17:45
→ TitanEric: n set判斷 02/11 17:45
推 vi000246: 我會直接抓編輯紀錄的時間 這樣最省效能 02/13 17:45