推 skyHuan: 用re.sub刪掉不要的符號呢 11/21 23:37
→ skyHuan: chstring = re.sub(r'[a-zA-Z0-9(){}《》::%?=※\s+\.\ 11/21 23:43
→ skyHuan: !\/_$%^*(+\"\']+|[+——!,?、~@#¥%……&*()。,「 11/21 23:43
→ skyHuan: 」-]+','',sample) 11/21 23:43
→ Pear888: 好像可以耶感謝,只剩表情符號這樣不能處理~~ 11/22 01:02
→ Pear888: 好像不行 中文字有的會變亂碼耶 11/22 01:54
推 cyf0531: 我是用 Zhon punctuation 你可以試試 11/22 17:52
推 vi000246: 你可以用負向匹配的 把不是中文的字元取代掉 11/22 18:12
推 vi000246: re.sub('[^\u4e00-\u9fff]+', '', s) 11/22 18:15
推 TitanEric: 感覺樓上的方法不錯 11/22 23:22
推 goldflower: 首先應該可以考慮搬家到python3了 11/23 04:24
→ goldflower: 然後用cyf大說的zhon和string內的puctuation就能解大 11/23 04:25
→ goldflower: 部分 最後利用table+translate的方式來做 11/23 04:26
→ goldflower: 這方法應該是python中跑最快的 re稍慢一點 11/23 04:26
→ goldflower: 像numpy jupyter pandas...不少都說以後不支援py2了 11/23 04:27
→ Pear888: C大 G大可以示範一下zhon的作法嗎~小弟新手print re.sub 11/23 11:01
→ Pear888: (ur"[%s]+" %punctuation, "", line.decode("utf-8")) 沒 11/23 11:01
→ Pear888: 有替代效果 11/23 11:01
推 goldflower: 呃為啥gist會被鎖啊 = = 晚點有空再弄 11/23 16:51
→ Pear888: 用python3編譯可以了感謝!接著要處理emoji了~ 11/24 11:05
推 goldflower: 我發現我punctuation另一個沒建只用maxunicode哈哈 11/24 15:04
→ goldflower: 這樣根本沒用到zhon的東西XD 反正就跟eng_table一樣 11/24 15:04