[問題] 請問python3.0怎麼去除半型全型標點符號

作者ptero (ptero)

看板Python

標題[問題] 請問python3.0怎麼去除半型全型標點符號

時間Sun Apr 5 20:46:44 2015

由於中文資料中會有全形半型標點混雜使用，而且也太多種難以列舉。想問有沒有比較聰明的方法解決。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.50.199 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1428238007.A.57C.html

推 Francophone: ASCII code? 04/05 21:44

推 BelkanWar: 用replace，把全形通通轉成半形 04/05 21:53

→ ptero: utf-8。 replace 有能一次把全部全型轉半行型的方法? 04/05 22:00

→ ccwang002: http://codex.wiki/post/183789-524/ 04/05 23:23

→ ccwang002: 去算 codepoint 蠻容易炸的，用 dict 列舉比較保險 04/05 23:24

→ ccwang002: 上面那個 code 要再調整，吃到 ',' 和 '「」' 都有問題 04/05 23:25

→ ccwang002: https://gist.github.com/b225921b98ca864d0dd6 04/05 23:30

→ ccwang002: 可以搭配 unicodedata.east_asian_width 去判算字寬 04/05 23:30

→ uranusjr: 0x3000 是 ideographic space, 真正的全型空白其實確實 04/05 23:33

→ uranusjr: 有和其他字元連在一起, 是 0xff00; 這種轉換其實除了 04/05 23:34

→ uranusjr: 上面的全半形對應外真的沒有特別好的方法, 不如列舉 04/05 23:34

→ uranusjr: 沒事別亂捅 Unicode 這螞蜂窩, 不然怎麼死的都不知道 04/05 23:36

→ ptero: 感謝 04/06 12:14