作者adrianshum (Alien)
看板java
標題Re: [問題] 讀檔不完整 (ANSI 文字檔)
時間Fri May 24 23:10:52 2013
首先聲明,這篇沒有解決辦法,只是旨在提供相關的背景知識。
第一樣講編碼。編碼 (encoding) 指的是什麼?舉個簡單例子。
首先 Java 運作時統統用 Unicode (UTF16 吧?) ,簡單的把
它想成 Java 裡的 character 夠大,能放世上所有的文字。
可是你的檔案,絕大部份時候都不是用 Unicode 來存。Big5
的標準下,“我”字是用兩個 byte A7DA 來代表,可是在
UTF-8 底下,A7DA 代表的是另一個字(你當成是“你”字好
了,實際是別的東西,只是做例子而已)。好了,當 Java
要讀你的檔,面對一串的 bytes, 讀進來的是兩個 bytes 是A7 DA,
Java 要怎麼才能知道應該當成“我”字還是“你”字?這就
要靠你提供編碼了。當 Java 被告知這次讀檔是要用 Big5 讀,
它就知道這個 A7 DA 代表“我”字,如果被告知是用 UTF-8 讀,
它就知道這個代表“你”字。
簡而言之,所謂編碼你可以想成是 字 的表示方法,對於 Java
而言,就是把 bytes 轉成 chars 及 chars 轉成 bytes 的格式。
(上面的講法只是把故事講得盡量淺白,有些不太準確)
第二要講的是 "ANSI 編碼",嚴格上世上沒有一種編碼叫 ANSI。
ASCII 大家都知道,有一個 ANSI 規格,算是把 ASCII 擴充,
用盡了 8 bits. Windows 中所謂 ANSI 編碼,就單統是指每個
byte 都會用到 8 bits,換而言之,就是沒編碼。Windows 怎樣
讀檔,就是依據 Windows 裡面的default 的編碼 (windows 裡
又叫這叫 codepage),即是如果你的 Windows 設了做 Big5,
你所謂的 ANSI 編碼存的文字檔其實就是 Big5, Windows 設了做
GBK, 存的檔就是 GBK。
Java 讀檔時,如果你沒有明講要用哪一種編碼,沒記錯的話是會
用系統設定的,如果你的 windows 設了做 Big5,那麼它就會當
是 Big5 來讀檔。想當然耳,如果用來讀 UTF-8 的檔就當然會
出問題。
第三講的是判斷編碼。面對一個文字檔,我怎麼知道是 Big5 還
是 UTF8? 簡單來說是沒方法。道理很簡單,假設檔裡面只有兩個
bytes A7 DA,你當 Big5 讀也對(讀出“我”字),當 UTF-8 讀
也對(讀出“你”字),除非我有超能力否則我怎麼可能知道你
本身想寫的是哪個字?
有些工具(Java 上好像少見)好像會靠裡面的文字去猜編碼,
比如出現某些組合是 Big5 的規格中沒用到,那它就知道這檔不是
Big5。可是,也是想當然耳,並不準確。
還有一個可能性,某些編碼(好像只是 unicode 系列的才有)在存
文字檔的時候,會在最開初有幾個特別的 bytes 來表達自己是什麼
編碼 (Byte Order Mark, BOM),不過很可惜,UTF-8 的檔並不一定
會有 BOM(甚至可以說是不建議使用),要是剛好你的檔有存 BOM
你或者可以用此作判斷。
簡而言之,Java 很笨 (同樣可以套到其他語言),你不告訴它一
個檔是什麼編碼,它沒法自己猜要用什麼編碼讀。你設計程式就要
想方法告訴它正確的編碼,no magic。
Alien
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 223.19.42.175
※ 編輯: adrianshum 來自: 223.19.42.175 (05/24 23:11)
→ realmeat:ANSI我後來找到了是ascii的延伸到255字元 05/24 23:52
→ realmeat: ^從 ^到 05/24 23:54
推 LPH66:我最近一直覺得"ANSI編碼"這個講法會讓人誤會很大 05/25 02:56
→ LPH66:這個講法就我所知應該是從記事本的存檔選項來的 05/25 02:58
推 tails32100:ANSI小弟只會想到BBS控制碼 (遮臉 05/25 19:40
推 s3748679:<~都用網頁瀏覽器來讀讀看內容 試試看編碼是啥.. 05/26 01:36
→ KanoLoa:<~ 用word開 06/21 21:01