作者askdrlin (中央氣象局)
看板Python
標題[問題] 新手問ptt政黑版爬蟲
時間Sun Dec 9 12:11:45 2018
大家好,小弟我目前已經把ptt政黑版爬蟲給爬完了,目前的狀況是標題,時間,發文id
,內容,推文,都可以爬下來
想要進階到正則表達式把內文作者或是來源給抓出來,不知道這是否可行?因為政黑版的
發文格式相當混亂,
像是是
新聞來源:xx
新聞:xx
xxx 報導
xxxx ooo 綜合報導
或是什麼都沒有
不曉得是否能夠寫出把這些單獨抓出來的正則表達式,因為也怕寫了會抓到其他的字就是
了....
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 110.26.228.210
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1544328708.A.3FB.html
→ jiyu520: ㄜ...你自己回答自己了,可以啊12/09 12:36
→ s860134: 沒有乾淨的資料只有無盡的苦功...12/09 16:55
推 CodingMan: 推二樓 你只能case by case 了12/10 14:59
謝謝回覆 看來的確是一個一個用個案去寫了 感恩大大
※ 編輯: askdrlin (110.26.228.210), 12/11/2018 14:45:58