作者tacovirus (小璋丸)
看板Soft_Job
標題[心得] 新聞網站技術細節分析
時間Thu Nov 8 01:11:19 2018
最近嘗試把新聞爬蟲做得系統化,也發現各新聞網站的技術問題
大致上整理了兩份表格,可以知道有哪些技術債還沒還
如果想去這些新聞媒體 coding 可以推測要拆的雷
https://github.com/virus-warnning/twnews/blob/feature/search-news/docs/SOUP_NOTES.md
如果覺得這爬蟲有用,也歡迎抓來玩玩
只要在 Python 3.5 以上這樣裝就可以了
pip3 install twnews
詳細請見
https://pypi.org/project/twnews/
--
世界越快 心則慢
網路越慢 心則快
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.64.93
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1541610687.A.C12.html
※ 編輯: tacovirus (1.34.64.93), 11/08/2018 01:19:19
推 neo5277: 推推推11/08 02:00
推 skitty: 請問有效率是指什麼?11/08 09:42
有效內容率 = 新聞實質內容 / 網頁位元組數
廣告 Script,多餘的 HTML 語法,是主要因素
→ yyc1217: 應該大部分都有RSS可以訂閱11/08 10:29
推 jerry1144: 推! 新聞分解最完整的竟然是聯合跟中時...慘 11/08 14:36
※ 編輯: tacovirus (1.34.64.93), 11/10/2018 01:42:10
推 alvinlin: 不錯呦。收了。多謝。 11/11 18:57