看板 HANGUKMAL 關於我們 聯絡資訊
: 不過,BIG-5 的推出相當倉促,很多重要的問題完全沒有考量到 : 例如:沒有包含日文假名、沒有包含簡體字、沒有包含許多人名用字等等 連台灣的地名用字都狂缺 日本制定JIS一、二水準時經過全國地理用字普查 BIG-5因為是民間製作,只能拿教育部公佈常用、次常用字集參考 偏偏這兩套字也是在辦公室裡做出來的理想標準 並不是實務用字範圍 : 造成 Windows 系統上的 BIG-5 是無法處理日文、俄文等等文字碼 : 這個問題,到了 Windows XP 甚至是 Vista 也仍然沒有解決 即使Big5-2003公佈了 微軟還是不想理 不像中國有法令強制作業系統編碼必須合乎國家標準 其實長痛不如短痛 我覺得Windows的ANSI狀態實在該改用UTF-8...... 就是不知道Windows為什麼一直要用Big5 才讓事情一直無法解決 : 這個東西就是 Unicode 補完計畫,它的原理很簡單,就是去修改對照表 : 把原本微軟沒有放進去的日文假名的轉換部分把它加上,這樣 BIG-5 就多了日文了 : 而後,這些搞 Unicode 補完計畫的人食髓知味,把腦筋又動到了簡體字頭上 這就是內部每個人主張不同了 本來是只有一個始作俑者,只想做日文假名 雖然並不常有加入簡體字的需求 但許多人都在問能不能加入日本國字 (無中文對應的日本漢字) 以及喆、堃之類的漢字 後來加入中文化聯盟後,每個人都有自己想法 有人主動就試作中國海字集版 一起解決漢字問題 反正那個年代中國海字集還滿多人用,討論後想想也好,就這樣公開了 接下來因為太多單向對應的字,在檔案系統造成很多難懂的現象 所以討論決定減少單向對應 清點了以後,發現GB2312範圍、SJIS範圍內的漢字,已經只剩幾百字了 索性就全部對應下去 做到 GB2312、SJIS、Big5-HKSCS 漢字部份全面一對一對應 : BIG-5 裡面有留一些區域,稱為「使用者造字區」,可以讓人自行造字來用 本來造字區約 6000 字 到這個階段已經剩下不到 1000 字了 : 你現在應該可以想到,PTT 使用的是 BIG-5 編碼,為何你可以看到假名和簡體字? : 沒錯,就是 Unicode 補完計畫作祟!什麼?你說沒裝過 Unicode 補完計畫? : 事實上,許多 BBS 連線軟體,例如 Open PCMan、PieTTY 等,直接內建了補完計畫 PTT 的 UTF-8 模式也是使用補完計畫的 table 在轉 (就是登入時加個 . 那種) PTT 的資料還是都存成 Big5 所以就算用 UTF-8 模式登入 PTT 在補完計畫裡沒有對應碼位的字仍無法正常儲存 : 方案一:要求 Unicode 補完計畫加入韓文的對應 : 韓文很科學,只有 24 個字母,可惜它的編碼一點也不科學 雖然聽說常用韓字只有2600個 但 Unicode 1.0 就收了 6000 個韓字 在惡名昭彰的韓字大移動後 Unicode 2.0 整整收了 11172 個完整排列組合 日本JIS跟大陸GB2312收的漢字還沒有這些韓字多 只有Big5 13060字有給他比較多一點 : 簡單的排列組合可以算算,韓文需要的碼很是驚人 : 少說五六千個碼位是跑不掉的 : 但是呢,BIG-5 使用者造字區的位置有限 : 加上一堆簡體字和日本國字已經佔掉很多的位置了 : 目前看來,剩下的碼位要能容納可能使用到的韓文字是不大可能了 以目前剩餘1000字不足來說,這顯然是收不完 : 而且,要進行韓文對應的工作,可能也要許多熟悉韓文的人來參與 : 再者,改完編碼之後,還得要更新 PCMan 等程式的內建對照表 : 這,不能不說是一個大工程 如果只要放入 U+1100~U+11FF 的 Hangul Jamo 是有可能 不過UAO 2.5穩定版已經維持多年 現在改版還有多少人願意採用也是問題 尤其是 Firefox 這種改表格又要大費周章提案的..... : 方案二:放棄 BIG-5,全面改用 UTF-8 (Unicode 衍生出的一種編碼) : 這是一勞永逸的方法,Unicode 本來就有包括中日韓文 : 不過,需要做二件事情才能辦到 : 第一、PTT 要修改程式,全面改用 UTF-8 進行儲存和傳輸 : 第二、所有的 PTT 使用者要改用全新的能夠支援 UTF-8 的連線程式 : 第一點可能 PTT 有能力辦到,第二點看起來是個不可能的任務 不然就讓資料存 UTF-8 碰到 ANSI client 時用補完字碼表去轉 Big5 了 如果 PTT 願意的話XD -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.132.164.65