看板 Python 關於我們 聯絡資訊
小弟最近剛開始學爬蟲,爬完某版的推文把它存成一個list後,想讓他只留下英文及數字,把中文刪掉。爬完推文後大概長這樣:http://i.imgur.com/YE386iH.jpg
請問各位大神有什麼方法可以達成這個目的嗎?google了好久都找不到QQ ----- Sent from JPTT on my HTC_U-3u. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.93.229 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1547328009.A.FF3.html
Yshuan: python有內建確認一個字是letter或digit的函數1 01/13 08:40
lajji: isalnum跑迴圈? 01/13 09:24
現在是一個list裡面每一個都包含中文和英文數字 跑迴圈應該沒辦法單獨把我要的抓出來吧? ※ 編輯: yeah66666 (140.113.136.220), 01/13/2019 10:11:03
secondsee: 可考慮字串重新編碼 非asci的忽略 → list_eng = [s.en 01/13 11:39
secondsee: code('utf8').decode('ascii','ignore') for s in list 01/13 11:40
secondsee: _eng] 01/13 11:40
算有成功但list裡面每個我要的字旁邊都有很多空格…我還是不知道要怎麼把空格刪掉
papple23g: 用regular expression? 01/13 12:36
TitanEric: re讚讚 01/13 13:17
※ 編輯: yeah66666 (110.50.134.172), 01/13/2019 16:07:57
asd2213857: 推正規運算法 01/13 16:42
重新編碼後再跑一次正規就成功了 謝謝各位!!
asd2213857: 刪除空白可以試試strip() 01/13 17:26
※ 編輯: yeah66666 (110.50.134.172), 01/13/2019 17:45:50