看板 Programming 關於我們 聯絡資訊
※ [本文轉錄自 HANGUKMAL 看板] 作者: but (←殺千刀的UAO始作俑者) 看板: HANGUKMAL 標題: Re: 有關 PTT 是否能輸入韓文的問題 時間: Thu Feb 28 10:28:04 2008 : 不過,BIG-5 的推出相當倉促,很多重要的問題完全沒有考量到 : 例如:沒有包含日文假名、沒有包含簡體字、沒有包含許多人名用字等等 連台灣的地名用字都狂缺 日本制定JIS一、二水準時經過全國地理用字普查 BIG-5因為是民間製作,只能拿教育部公佈常用、次常用字集參考 偏偏這兩套字也是在辦公室裡做出來的理想標準 並不是實務用字範圍 : 造成 Windows 系統上的 BIG-5 是無法處理日文、俄文等等文字碼 : 這個問題,到了 Windows XP 甚至是 Vista 也仍然沒有解決 即使Big5-2003公佈了 微軟還是不想理 不像中國有法令強制作業系統編碼必須合乎國家標準 其實長痛不如短痛 我覺得Windows的ANSI狀態實在該改用UTF-8...... 就是不知道Windows為什麼一直要用Big5 才讓事情一直無法解決 : 這個東西就是 Unicode 補完計畫,它的原理很簡單,就是去修改對照表 : 把原本微軟沒有放進去的日文假名的轉換部分把它加上,這樣 BIG-5 就多了日文了 : 而後,這些搞 Unicode 補完計畫的人食髓知味,把腦筋又動到了簡體字頭上 這就是內部每個人主張不同了 本來是只有一個始作俑者,只想做日文假名 雖然並不常有加入簡體字的需求 但許多人都在問能不能加入日本國字 (無中文對應的日本漢字) 以及喆、堃之類的漢字 後來加入中文化聯盟後,每個人都有自己想法 有人主動就試作中國海字集版 一起解決漢字問題 反正那個年代中國海字集還滿多人用,討論後想想也好,就這樣公開了 接下來因為太多單向對應的字,在檔案系統造成很多難懂的現象 所以討論決定減少單向對應 清點了以後,發現GB2312範圍、SJIS範圍內的漢字,已經只剩幾百字了 索性就全部對應下去 做到 GB2312、SJIS、Big5-HKSCS 漢字部份全面一對一對應 : BIG-5 裡面有留一些區域,稱為「使用者造字區」,可以讓人自行造字來用 本來造字區約 6000 字 到這個階段已經剩下不到 1000 字了 : 你現在應該可以想到,PTT 使用的是 BIG-5 編碼,為何你可以看到假名和簡體字? : 沒錯,就是 Unicode 補完計畫作祟!什麼?你說沒裝過 Unicode 補完計畫? : 事實上,許多 BBS 連線軟體,例如 Open PCMan、PieTTY 等,直接內建了補完計畫 PTT 的 UTF-8 模式也是使用補完計畫的 table 在轉 (就是登入時加個 . 那種) PTT 的資料還是都存成 Big5 所以就算用 UTF-8 模式登入 PTT 在補完計畫裡沒有對應碼位的字仍無法正常儲存 : 方案一:要求 Unicode 補完計畫加入韓文的對應 : 韓文很科學,只有 24 個字母,可惜它的編碼一點也不科學 雖然聽說常用韓字只有2600個 但 Unicode 1.0 就收了 6000 個韓字 在惡名昭彰的韓字大移動後 Unicode 2.0 整整收了 11172 個完整排列組合 日本JIS跟大陸GB2312收的漢字還沒有這些韓字多 只有Big5 13060字有給他比較多一點 : 簡單的排列組合可以算算,韓文需要的碼很是驚人 : 少說五六千個碼位是跑不掉的 : 但是呢,BIG-5 使用者造字區的位置有限 : 加上一堆簡體字和日本國字已經佔掉很多的位置了 : 目前看來,剩下的碼位要能容納可能使用到的韓文字是不大可能了 以目前剩餘1000字不足來說,這顯然是收不完 : 而且,要進行韓文對應的工作,可能也要許多熟悉韓文的人來參與 : 再者,改完編碼之後,還得要更新 PCMan 等程式的內建對照表 : 這,不能不說是一個大工程 如果只要放入 U+1100~U+11FF 的 Hangul Jamo 是有可能 不過UAO 2.5穩定版已經維持多年 現在改版還有多少人願意採用也是問題 尤其是 Firefox 這種改表格又要大費周章提案的..... : 方案二:放棄 BIG-5,全面改用 UTF-8 (Unicode 衍生出的一種編碼) : 這是一勞永逸的方法,Unicode 本來就有包括中日韓文 : 不過,需要做二件事情才能辦到 : 第一、PTT 要修改程式,全面改用 UTF-8 進行儲存和傳輸 : 第二、所有的 PTT 使用者要改用全新的能夠支援 UTF-8 的連線程式 : 第一點可能 PTT 有能力辦到,第二點看起來是個不可能的任務 不然就讓資料存 UTF-8 碰到 ANSI client 時用補完字碼表去轉 Big5 了 如果 PTT 願意的話XD -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.132.164.65 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 221.169.215.127
rickhsu:雖然我不太懂..可是由文章看來..客滿了221.169.215.127 02/29 07:02
rickhsu:改ptt,改windows 又不知道要等多久...221.169.215.127 02/29 07:03
Lordaeron:windows 早就是utf-8在跑了啊, 又不是95 61.229.149.253 02/29 07:08
Lordaeron:再說, unicode也早就將中日韓漢字統一了 61.229.149.253 02/29 07:09
rickhsu:我不太懂了..只希望有人能幫忙...221.169.215.127 02/29 07:20
rickhsu:希望能協助albyu移植windows的版本..221.169.215.127 02/29 07:20
rickhsu:很抱歉技術細節我都不太懂..221.169.215.127 02/29 07:42
rickhsu:我只是系統面能用就很感激不盡了..221.169.215.127 02/29 07:43
Lordaeron:No solution, 上面已經講得很清楚了. 61.229.149.253 02/29 08:12
rickhsu:只要能夠輸入韓文.同時顯示中韓文的就可221.169.215.127 02/29 08:20
rickhsu:pietty可以做到輸入韓文顯示韓文..221.169.215.127 02/29 08:23
rickhsu:只是不能同時顯示韓文跟中文..221.169.215.127 02/29 08:24
rickhsu:我想技術上應該是有方案的..221.169.215.127 02/29 08:25
rickhsu:我只是使用者通通不懂.對何種方案沒有偏好221.169.215.127 02/29 08:28
rickhsu:由各種文章顯示..表格是比較好的做法..221.169.215.127 02/29 08:35
rickhsu:但是已經客滿了..所以不可行...221.169.215.127 02/29 08:36
rickhsu:那區塊顯示目前看起來應該還是可以..221.169.215.127 02/29 08:37
rickhsu:我的原意是如此.希望大家能幫忙第二條路..221.169.215.127 02/29 08:38
rickhsu:若因為我沒說明清楚..若造成您誤解.221.169.215.127 02/29 08:39
rickhsu:實在很抱歉.221.169.215.127 02/29 08:40
Lordaeron:看來你沒看懂上文的意思, 簡單的講就是 61.229.149.253 02/29 14:38
Lordaeron:要套中文造字區, 現在所剩不足韓文用了 61.229.149.253 02/29 14:39
Lordaeron:要全面用unicode, 但ptt又只存big5 61.229.149.253 02/29 14:39
Lordaeron:故, 沒招<==得證 61.229.149.253 02/29 14:40
rickhsu:上面我已看懂.現在albyu的方向是另一種221.169.215.127 02/29 16:07
rickhsu:你應該仔細看看我轉的第一篇221.169.215.127 02/29 16:08
rickhsu:使用者才不管用啥方式..能打能看就是好貓221.169.215.127 02/29 16:08
rickhsu:也就是使用者要的是能再bbs上同時看到韓文221.169.215.127 02/29 16:11
rickhsu:與中文.至於用什麼方式就超出使用者的能力221.169.215.127 02/29 16:12
Lordaeron:看來你們不懂本文作者的講法, 重點不在 61.229.149.253 02/29 16:12
Lordaeron:於client 能否顯示, 問題是在於ptt 的存 61.229.149.253 02/29 16:13
Lordaeron:檔方式, 例如, 現在只剩一千字給韓文 61.229.149.253 02/29 16:13
rickhsu:我已經講懂了啊....221.169.215.127 02/29 16:14
Lordaeron:另外一千字呢? 必定會跟其它造字區的字 61.229.149.253 02/29 16:14
Lordaeron:重疊 61.229.149.253 02/29 16:15
rickhsu:你注意看我轉這篇不是請求要再已塞暴的表221.169.215.127 02/29 16:15
rickhsu:格中多塞東西...請你連著幾篇看好吧221.169.215.127 02/29 16:16
Lordaeron:如果像albyu的做法, 用escape tag 來處 61.229.149.253 02/29 16:17
Lordaeron:理, 不過要選好escape tag 61.229.149.253 02/29 16:18
rickhsu:對啊...我的意思為此..這裡高手多...221.169.215.127 02/29 16:19
Lordaeron:至於輸入韓文一事, 只要改成unicode 61.229.149.253 02/29 16:19
rickhsu:一定會有利害的人可以給albyu關於tag規劃221.169.215.127 02/29 16:19
rickhsu:的意見..221.169.215.127 02/29 16:20
Lordaeron:輸入就好了, 吃unicode, 再自行mapping 61.229.149.253 02/29 16:20
rickhsu:話說回來這個問題有點像硬體上記憶體空間221.169.215.127 02/29 16:24
rickhsu:的處理..221.169.215.127 02/29 16:25
rickhsu:留一些記憶體位置來做分頁.就可以存取221.169.215.127 02/29 16:26
rickhsu:高過直接存取的範圍..表格我想也可以同樣221.169.215.127 02/29 16:27
rickhsu:只不過這樣要大家有取得共識恐怕很難.221.169.215.127 02/29 16:28
rickhsu:tag的方式雖然不是最佳法..但是我覺得維持221.169.215.127 02/29 16:31
rickhsu:與舊有bbs的相容性是很大的優點...221.169.215.127 02/29 16:32
Lordaeron:hint: iso8859-1 處理中文字的方式 61.229.149.253 02/29 17:06
rickhsu:希望有空閒的人可以去HANGUKMAL看看 59.105.201.25 02/29 19:25
rickhsu:最新的進展..一直轉文可能很佔版面 59.105.201.25 02/29 19:26
rickhsu:在此先謝謝大家喔.. 59.105.201.25 02/29 19:27