精華區beta Programming 關於我們 聯絡資訊
> ==>發信人: =?big5?B?5qPmow==?= <devil@tainan.com.tw.x>, 信區: programming > ==> 本文由 "try or test <try or test>" > > 於 news:4S0RR1%24y1G%40bbs.csie.ncu.edu.tw 發表 > > > ==>發信人: 璉璉 <devil@tainan.com.tw.x>, 信區: programming > > > 所以以微軟之能,也是在純文字檔前面加上 FFFE 來控制阿... > > > ^_^ > > 1. 假如是純中文字串, utf-8 的 byte 數是 3 的倍數, 且每個 byte 都是 > 80 > > 4. 曾經以十萬筆由使用者實驗登錄的名稱轉成 UTF-8 , BIG5, GBK 三者混雜在一 > > 起, 做過判別實驗, 不用詞典, 依靠 range check 要判定出 UTF8 字串部份幾乎 > > 都不曾出錯, 但只有一筆是大陸的一筆奇特的三個字的地名, 其 Big5 的 6 個 > > bytes 會被誤判為 UTF-8 . > 中文轉 utf-8 不是 3 或 4 bytes 嗎... 1.UNICODE 第一字面(常用字) 的範圍(16 bits) 轉成 utf-8 是 3 bytes. 2.在字串前面加上碼別標記是避免碼別辨識難度的辦法. -- ◎ Origin: 中央松濤站□bbs.csie.ncu.edu.tw From: 140.115.6.234