[問題] 請問 unicode or utf-8 區分繁簡中文

作者worldxxi (風)

看板RegExp

標題[問題] 請問 unicode or utf-8 區分繁簡中文

時間Fri Apr 16 11:52:01 2010

我查了一下中文字的範圍(\u4e00-\u9a05)，如果要區分出日文(\u0800-\u4e00)比較容易，因為範圍有錯開，但是要分出繁體中文還是簡體中文就沒辦法，我用word的符號表看，是交錯在一起的，最後我用的方法是：把要檢查的字串轉成big-5，轉不出來的就含有不是繁體中文的字，然後再去處理，可是感覺很鳥，有人知道比較好一點作法嗎？弄不出來我感覺自己好弱 Q_Q --------------------------------------------------------------------------- 另外有個小疑問，我在網路上找到一個正規表示式的網站，如下： http://www.rubular.com/ 為什麼我用[\u4e00-\u9a05]去跑，反而是英文會通過，中文被濾掉了 [\u4e00-\u9a05]的意思不是說如果有在這個字碼範圍的字出現就會match嗎？一直google不到，有人知道嗎。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.96.120.223

推 AlanSung:不是 9fa5 嗎? 不過網頁的 encoding 也許會有影響吧 04/16 13:24

→ worldxxi:好兩個都有人在用，比較大的範圍好像有一些擴增的字 04/16 13:33

推 AlanSung:直接用你的程式跑看看吧，應該是沒錯啦，只是繁簡..不會 04/16 14:19

推 buganini:為啥要判斷繁簡啊? 有些簡繁共用的要當作什麼? 04/18 01:34

→ worldxxi:簡單來說就是把不在繁體中文內的文字過濾掉 04/19 09:32