[請益] 自己刻 RSS Reader

作者chan15 (ChaN)

看板PHP

標題[請益] 自己刻 RSS Reader

時間Sun Feb 8 15:26:30 2015

最近心血來潮想要練習寫一個公司用的 RSS Reader，目的就是抓取一些指定的網址之後將內容彙整進來，並且標示已讀未讀而已，想到幾個問題想請教大家 1. 資料擷取時間：我目前個人使用 Feedly，根據觀察的結果，我猜網址資料的開始，應該是從第一個加入此網址的人起始，譬如說有個 Blog 叫 http://ww w.aaa.com 從 2007 年開始，A 是在這個 RSS Reader 第一個使用該網址的人，使用時間是 2014-11 月份，於是 Server 便會從這段時間開始定期執行 cron job 去掃資料，可是這樣跑掃描時間間距不能太長，否則的話如果是個更新頻繁的網站會有掉資料的機會，可是如果 database 有幾千幾萬個網站，這樣跑起來也是挺恐怖的。 2. 資料擷取問題：可以在某些確定是有名的 Blog 形式例如說（blogger）可能利用 lo gic 去找出對應的 RSS 檔案或者是 XML 擷取資料，可是像是一些掛有個人 domain 的，例如像 http://blog.littlelin.info/，要怎麼 check 或 convert 他成為 seed 呢 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.234.173 ※ 文章網址: https://www.ptt.cc/bbs/PHP/M.1423380393.A.F60.html ※ 編輯: chan15 (122.116.234.173), 02/08/2015 15:33:39

→ MOONRAKER: 阿不就user各自登記URL然後server逐個送request看有沒 02/08 16:47

→ MOONRAKER: 有RSS內容這樣我跟你若是訂同一個網址可以只poll一次 02/08 16:48

→ chan15: 應該是定期掃吧，request 才掃難免掉資料 02/08 18:51

→ MOONRAKER: 當然馬是定期送request 怎麼可能request才掃 02/09 11:28