看板 java 關於我們 聯絡資訊
首先聲明,這篇沒有解決辦法,只是旨在提供相關的背景知識。 第一樣講編碼。編碼 (encoding) 指的是什麼?舉個簡單例子。 首先 Java 運作時統統用 Unicode (UTF16 吧?) ,簡單的把 它想成 Java 裡的 character 夠大,能放世上所有的文字。 可是你的檔案,絕大部份時候都不是用 Unicode 來存。Big5 的標準下,“我”字是用兩個 byte A7DA 來代表,可是在 UTF-8 底下,A7DA 代表的是另一個字(你當成是“你”字好 了,實際是別的東西,只是做例子而已)。好了,當 Java 要讀你的檔,面對一串的 bytes, 讀進來的是兩個 bytes 是A7 DA, Java 要怎麼才能知道應該當成“我”字還是“你”字?這就 要靠你提供編碼了。當 Java 被告知這次讀檔是要用 Big5 讀, 它就知道這個 A7 DA 代表“我”字,如果被告知是用 UTF-8 讀, 它就知道這個代表“你”字。 簡而言之,所謂編碼你可以想成是 字 的表示方法,對於 Java 而言,就是把 bytes 轉成 chars 及 chars 轉成 bytes 的格式。 (上面的講法只是把故事講得盡量淺白,有些不太準確) 第二要講的是 "ANSI 編碼",嚴格上世上沒有一種編碼叫 ANSI。 ASCII 大家都知道,有一個 ANSI 規格,算是把 ASCII 擴充, 用盡了 8 bits. Windows 中所謂 ANSI 編碼,就單統是指每個 byte 都會用到 8 bits,換而言之,就是沒編碼。Windows 怎樣 讀檔,就是依據 Windows 裡面的default 的編碼 (windows 裡 又叫這叫 codepage),即是如果你的 Windows 設了做 Big5, 你所謂的 ANSI 編碼存的文字檔其實就是 Big5, Windows 設了做 GBK, 存的檔就是 GBK。 Java 讀檔時,如果你沒有明講要用哪一種編碼,沒記錯的話是會 用系統設定的,如果你的 windows 設了做 Big5,那麼它就會當 是 Big5 來讀檔。想當然耳,如果用來讀 UTF-8 的檔就當然會 出問題。 第三講的是判斷編碼。面對一個文字檔,我怎麼知道是 Big5 還 是 UTF8? 簡單來說是沒方法。道理很簡單,假設檔裡面只有兩個 bytes A7 DA,你當 Big5 讀也對(讀出“我”字),當 UTF-8 讀 也對(讀出“你”字),除非我有超能力否則我怎麼可能知道你 本身想寫的是哪個字? 有些工具(Java 上好像少見)好像會靠裡面的文字去猜編碼, 比如出現某些組合是 Big5 的規格中沒用到,那它就知道這檔不是 Big5。可是,也是想當然耳,並不準確。 還有一個可能性,某些編碼(好像只是 unicode 系列的才有)在存 文字檔的時候,會在最開初有幾個特別的 bytes 來表達自己是什麼 編碼 (Byte Order Mark, BOM),不過很可惜,UTF-8 的檔並不一定 會有 BOM(甚至可以說是不建議使用),要是剛好你的檔有存 BOM 你或者可以用此作判斷。 簡而言之,Java 很笨 (同樣可以套到其他語言),你不告訴它一 個檔是什麼編碼,它沒法自己猜要用什麼編碼讀。你設計程式就要 想方法告訴它正確的編碼,no magic。 Alien -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 223.19.42.175 ※ 編輯: adrianshum 來自: 223.19.42.175 (05/24 23:11)
realmeat:ANSI我後來找到了是ascii的延伸到255字元 05/24 23:52
realmeat: ^從 ^到 05/24 23:54
LPH66:我最近一直覺得"ANSI編碼"這個講法會讓人誤會很大 05/25 02:56
LPH66:這個講法就我所知應該是從記事本的存檔選項來的 05/25 02:58
tails32100:ANSI小弟只會想到BBS控制碼 (遮臉 05/25 19:40
s3748679:<~都用網頁瀏覽器來讀讀看內容 試試看編碼是啥.. 05/26 01:36
KanoLoa:<~ 用word開 06/21 21:01