> ==>發信人: =?big5?B?5qPmow==?= <devil@tainan.com.tw.x>, 信區: programming
> ==> 本文由 "try or test <try or test>"
> > 於 news:4S0RR1%24y1G%40bbs.csie.ncu.edu.tw 發表
> > > ==>發信人: 璉璉 <devil@tainan.com.tw.x>, 信區: programming
> > > 所以以微軟之能,也是在純文字檔前面加上 FFFE 來控制阿...
> > > ^_^
> > 1. 假如是純中文字串, utf-8 的 byte 數是 3 的倍數, 且每個 byte 都是 > 80
> > 4. 曾經以十萬筆由使用者實驗登錄的名稱轉成 UTF-8 , BIG5, GBK 三者混雜在一
> > 起, 做過判別實驗, 不用詞典, 依靠 range check 要判定出 UTF8 字串部份幾乎
> > 都不曾出錯, 但只有一筆是大陸的一筆奇特的三個字的地名, 其 Big5 的 6 個
> > bytes 會被誤判為 UTF-8 .
> 中文轉 utf-8 不是 3 或 4 bytes 嗎...
1.UNICODE 第一字面(常用字) 的範圍(16 bits) 轉成 utf-8 是 3 bytes.
2.在字串前面加上碼別標記是避免碼別辨識難度的辦法.
--
◎ Origin: 中央松濤站□bbs.csie.ncu.edu.tw From: 140.115.6.234