看板 Python 關於我們 聯絡資訊
由於中文資料中會有全形半型標點混雜使用,而且也太多種難以列舉。 想問有沒有比較聰明的方法解決。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.50.199 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1428238007.A.57C.html
Francophone: ASCII code? 04/05 21:44
BelkanWar: 用replace,把全形通通轉成半形 04/05 21:53
ptero: utf-8。 replace 有能一次把全部全型轉半行型的方法? 04/05 22:00
ccwang002: http://codex.wiki/post/183789-524/ 04/05 23:23
ccwang002: 去算 codepoint 蠻容易炸的,用 dict 列舉比較保險 04/05 23:24
ccwang002: 上面那個 code 要再調整,吃到 ',' 和 '「」' 都有問題 04/05 23:25
ccwang002: 可以搭配 unicodedata.east_asian_width 去判算字寬 04/05 23:30
uranusjr: 0x3000 是 ideographic space, 真正的全型空白其實確實 04/05 23:33
uranusjr: 有和其他字元連在一起, 是 0xff00; 這種轉換其實除了 04/05 23:34
uranusjr: 上面的全半形對應外真的沒有特別好的方法, 不如列舉 04/05 23:34
uranusjr: 沒事別亂捅 Unicode 這螞蜂窩, 不然怎麼死的都不知道 04/05 23:36
ptero: 感謝 04/06 12:14