看板 Soft_Job 關於我們 聯絡資訊
最近嘗試把新聞爬蟲做得系統化,也發現各新聞網站的技術問題 大致上整理了兩份表格,可以知道有哪些技術債還沒還 如果想去這些新聞媒體 coding 可以推測要拆的雷 https://github.com/virus-warnning/twnews/blob/feature/search-news/docs/SOUP_NOTES.md 如果覺得這爬蟲有用,也歡迎抓來玩玩 只要在 Python 3.5 以上這樣裝就可以了 pip3 install twnews 詳細請見 https://pypi.org/project/twnews/ -- 世界越快 心則慢 網路越慢 心則快 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.64.93 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1541610687.A.C12.html ※ 編輯: tacovirus (1.34.64.93), 11/08/2018 01:19:19
neo5277: 推推推11/08 02:00
skitty: 請問有效率是指什麼?11/08 09:42
有效內容率 = 新聞實質內容 / 網頁位元組數 廣告 Script,多餘的 HTML 語法,是主要因素
yyc1217: 應該大部分都有RSS可以訂閱11/08 10:29
jerry1144: 推! 新聞分解最完整的竟然是聯合跟中時...慘 11/08 14:36
※ 編輯: tacovirus (1.34.64.93), 11/10/2018 01:42:10
alvinlin: 不錯呦。收了。多謝。 11/11 18:57