作者xxfaintxx (faint)
看板Python
標題[問題] 超新手Side-project請教
時間Tue Sep 29 18:37:21 2020
各位大神好,小弟想做一個電影評論網頁的Side-project
思考方向與實作思維,還請各位大大不吝指教
1. 目前實作了兩支爬蟲,一個去抓取yahoo電影的資訊,一個抓取Movie版有
提到"雷"的標題
工具: Scrapy
思考的方向:想將兩隻爬蟲抓下來的電影title與Movie版評論title做比對,
並將電影title標記在Movie版評論Data裡,最後存到資料庫
完成的問題:成功爬到資料並把圖片下載到local端
遭遇的問題:兩隻爬蟲抓下來的資料怎麼做比對,目前是將資料匯出csv檔,
用pandas .str.contains 去做電影title的比對,但performance
似乎... 很慢 是因為我用錯方法? 還是有其他更快的方法??
2. 將存進資料庫的資料用django呈現網頁
工具:django
思考方向:點頁面的電影title,呈現圖片、網路評分、Movie版鄉民暴雷的文章
提供瀏覽並計算"好雷"、"負雷"、"普雷"的挑論熱度
完成的問題:title與圖片相關資訊呈現在業面已完成
3. 最後最重要的問題,做完這Side-project 有辦法找到Python相關工作嗎??
還請大大們指教
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.22.139.87 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1601375843.A.EB3.html
→ max36067: 1. 分別放進不同的collection 再實作一個ETL去比對 09/30 10:38
推 max36067: 3. 看運氣 還有你的domain know how 只會用套件可以找 09/30 10:40
→ max36067: 到 但是你要看自己想要哪種工作 09/30 10:40