作者but (←殺千刀的UAO始作俑者)
看板NIHONGO
標題Re: [心得] 時の淚:Unicode補完計畫
時間Mon Dec 5 23:09:03 2011
: 雖然這個跟日文版沒有什麼關聯
: 不過在使用日文字普遍的這個版上
: 還是希望寫一篇來警惕一些剛想學日文的人
: 可能會遇到打日文字的問題
雖然跟日文版沒有關連
但是身為作者 實在無法接受作品被反覆的造謠
所以該澄清的還是要澄清
先說清楚 我是Unicode補完計畫第一版作者
自己現在用Win7 沒有裝Unicode補完計畫
但無論是PCMAN、Pietty、Firefox
或多或少都「內建」了Unicode補完計劃的字碼表
無論你有沒有用Unicode補完計畫
能夠使用PCMAN在BBS上看到日文漢字
這字碼表 確實是我們Unicode補完計畫小組一個字一個字定出來的
(Unicode補完計畫的範圍不只是假名而已
他在BIG5中定義了SJIS跟GB2312的所有漢字)
: 直到Windows98時代前期
: 台灣人開始希望能寫日本字
事實上 台灣一直有處理日文的需求
從DOS時代開始 倚天中文系統就內建了假名
市面上暢銷的中國海字集收錄了大量日文漢字
很可惜的微軟放棄了假名部分 才造成之後問題連連
: 這時候就有人想到
: 那麼為什麼不直接在BIG5的字典表中
: 加入那些日本字呢?
: 沒錯
: 這就是Unicode補完計畫的誕生
不 直接在BIG5中加入日文
是傳統的造字檔方法 也就是櫻花輸入法之類的
從 Windows95 時代就有
: 這也是在Windows98下最普遍的日文輸入法
: 因為你的電腦並沒有內建各國輸入法
其實有 Microsoft Global IME(JP) 可以裝.....
不過只能在 IE 裡用就是了
: 一直到WindowsXP時代
事實上 Unicode 補完計畫是在 2001年的時候
針對 Windows XP 開發的
Windows 95/98/ME 是 DOS 架構的 Windows
系統底層是用 ASCII 處理的(1位元字碼)
Windows NT/XP/2003.... 是 NT 架構
系統底層是用 Unicode 運作的 也就是國際碼
雖然底層改成 Unicode
但大多數的軟體、舊文件,都還是 BIG5 的
所以BIG5跟Unicode兩種不同的字碼 不可能說換掉就一口氣換掉
實際上 Windows XP 無時無刻在做這兩種編碼之間的轉換
但是因為微軟放棄了BIG5裡的假名
所以櫻花輸入法的假名會被轉換到Unicode的造字區
Unicode 補完計畫真正做的事情是
換掉系統預設的 Unicode <=> BIG5 互相轉換表
把 BIG5 日文字區的字碼 轉換到正確的 Unicode 日文字區
: 就算是把各國的資訊都安裝進去,基本上也沒有什麼問題
: 所以可以接受跟顯示日文字
網速之類的問題不大 主要是系統底層架構的影響
: 這時候會發生什麼問題
: 你的電腦多出來安裝的東西
: 當初日本人沒有裝
: 就算他看得到繁體中文字的BIG5編碼
: 你在後面加上去的那些字庫他是沒有的
: 所以她看不到
Unicode補完計畫所做的事情是調整轉換表
而不是像櫻花輸入法一樣 在造字區把日文字型塞進去
所以安裝以後 在正確的Unicode環境下
BIG5日文會被正確轉換成Unicode的日文
如果日本人看不到 只有一個原因
就是你傳送了BIG5編碼的文件
: 接著,你電腦中所有的檔案
: 檔名都已經換成BIG5的日文字
不會
Windows XP 的檔案系統 NTFS 是用 Unicode 儲存檔名 不是 BIG5
事實上
Unicode補完計畫所提供的檔名軟換工具
是把檔名裡的假名
從Unicode造字區改成正確的Unicode日文假名
因為當年像Winamp之類的軟體 無法開啟本地編碼缺字的檔名
所以才會寫這個功能
: 最後Unicode補完計畫雖然支援文件的轉換還原
: 一般人找不到方法去還原他
事實上是
我們本來就評估過 時代會漸漸走向軟體支援開啟所有Unicode檔名的檔案
所以把檔名轉換工具設計成不建議轉回來
試問 在這個時代
有什麼時候需要把正確Unicode日文轉回造字區的假日文呢?
: 辛辛苦苦存的Word,歌詞之類的,就是會消失
Word 是用 Unicode 儲存的
會出問題的是櫻花輸入法
使用 Unicode 補完計畫的日文不會有問題
: 到了WindowsXP的時候
: 只要使用AppLocale就可以解決多數問題(除非鎖日Win系統)
AppLocale 的真正用途
是用來解決 在Unicode環境<=>Big5對應下 想要執行SJIS的軟體
也就是平常用的是中文
所以把Windows XP定義成地區編碼預設轉換成BIG5模式
但又想執行SJIS的軟體 想只針對這個軟體 預設Unicode與SJIS互相轉換
但這不能解決BIG5環境的問題
要說還有什麼BIG5環境 主要就是BBS... 就是這個ptt
: 這是Windows就有內建的東西
: 也是日本人打字用的東西
: 也是最正規的東西
所以Unicode補完計畫一向提倡使用MS-IME
而且隨著Unicode補完計畫安裝的Unicode補完計畫版本櫻花輸入法
也是吐出正確的Unicode字碼
: 如果存成Unicode還是UTF-8就沒有這個問題
: 那些存成ANSI的各國種類的文字檔都將不復存在
我同意時代終於走到BIG5越來越少的時候了
但要完全離開BIG5還是有困難的
一來是最難解的BBS (ptt本身就是完全的BIG5環境)
另一來是很多文字編輯器(像記事本) 預設還是存BIG5
: 因此
: Unicode補完計畫雖然稱為Unicode補完計畫
: 但是他補完的對象是Unicode
: 並不是代表他建構在Unicode上
Unicode補完計畫是建構在WindowsNT架構會不停進行Unicode<=>ANSI互換的前提下
調整Unicode<=>BIG5的對應關係
實際上沒有修改到Unicode編碼表
可以說是有大量修改了BIG5的編碼
: 但是自從WindowsXP左右
: 他就是時代的眼淚
他是WindowsXP時代的產品
雖然後來Unicode補完計畫有硬搞出Win98的版本
不過限制非常大
基本上還是比較適合WindowsNT
: 甚至中文字都出來了日文字就是亂碼
: 那麼這個可能就是來自Unicode補完計畫出來的毒
: 不要想了,扔掉吧
不一定
也很有可能是櫻花輸入法或中國海字集之類的BIG5文件
而且 根據現在最新的國家標準(BIG5-2003)
日文假名是BIG5的一部分
反而是微軟版本的BIG5不合標準
再者 BBS上的假名跟日文漢字 到現在還是用BIG5儲存的
無論你是裝Unicode補完計畫 還是用PCMan或Pietty
能看到這些字 都是靠Unicode補完計畫定義的對應關係
: 那麼請直接重灌電腦
: 並且花很長的心力去復原你的文件
: 這是陣痛期,痛過了就沒事了
: 你即將跟世界接軌
事實上 因為微軟拿掉了BIG5裡面的日文假名
才造成後來一堆各式各樣的問題
傳統的解法就是用造字區解決
大家使用一樣的造字表 就都夠看得到一樣的字
但這些字在Unicode裡其實都有
當時代進入Windows XP後
BIG5造字區裡的假名 也被對應到Unicode的造字區
Unicode補完計畫用很特殊的方法嘗試解決這問題
就是把BIG5的造字區 對應到Unicode正確的日文區
這麼一來就能達到我們認為還算理想的結果
1. 在BIG5環境下,跟傳統的造字區解決方案相容
2. 在Unicode環境下,跟正確的日文字區相容
Unicode補完計畫一開始的設計目的
就是為了試著讓BIG5造字區裡的日文 能盡快跟Unicode裡正確的日文字區接軌
要說這是活在象牙塔裡 這是不公平的
如果你使用Unicode補完計畫
後來很小心自己文件都以 Unicode (包括UTF-8) 儲存
那麼Unicode補完計畫剛好是把舊的櫻花輸入法造字資料
協助轉換成Unicode正確日文的幫手
(副作用就是愛存BIG5的話,也會很拿手地將Unicode日文存成BIG5造字日文....)
雖然我不能否認說
一方面這也造成了BIG5日文文件的持續使用
但至少在Unicode補完計畫的協助下
不會讓這些造字日文擴散到Unicode環境裡
如果現在你還在使用櫻花輸入法方案
那你從BBS所複製的日文 存在Word裡 他都仍然是Unicode造字區
是因為Unicode補完計畫/PCMan/Pietty 把它正確對應到Unicode日文區
所以安裝Unicode補完計畫/PCMan/Pietty之後
BBS裡的日文才能跟Unicode正確的日文完全接軌
: Unicode補完計畫
: 之所以後來會被稱為補不完計畫
: 不是沒有原因的
我自己是沒碰到什麼問題啦
確實我自己會很小心盡量存 Unicode 就是了
因為我自己現在會用到BIG5的情況只剩BBS了
所以我選擇沒安裝Unicode補完計畫 只裝個PCMan解決
但這仍然是Unicode補完計畫的延長線
裝PCMan可以看到BBS的日文 不是因為ptt支援Unicode了 或是PCMan支援Unicode了
而是因為
PCMan把Unicode補完計畫的那張Unicode<=>BIG5對應表內建進去了
只是根據這份表進行對應的範圍 從整個系統侷限到一個軟體裡了而已
另外可見以前寫的說明
http://blog.chweng.idv.tw/archives/90
我會回這一篇 並不是要勸人裝
我自己現在也沒有需要 就沒裝了
只是不能接受整篇的誤解 該更正的時候還是要更正一下
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.36.151.172
推 medama:推 111.255.92.108 12/05 23:10
推 WindSignal:這真的不能不推!118.169.210.226 12/05 23:15
推 kazano:有大大快拜 m(_ _)m 124.8.68.79 12/05 23:24
推 wolfwolf:有神快拜118.168.136.193 12/05 23:25
推 tomuya:有神快拜 61.58.88.134 12/05 23:33
推 dragonsoul:推 211.74.184.96 12/05 23:50
推 jasonmasaru:拜 180.30.210.38 12/05 23:54
推 vacuum41910:有看有拜 42.72.74.227 12/06 01:23
推 KawasumiMai:まぁ、既然最了解箇中原理的作者都出140.121.210.139 12/06 05:43
→ KawasumiMai:來解釋來龍去脈了,不推也說不過去140.121.210.139 12/06 05:43
推 pc010710:有神快拜!!!218.107.246.206 12/06 09:06
推 bibiman: 有神快拜!!! 61.60.117.68 12/06 10:04
推 RIDERKNIGHT:有神快拜,感謝你的付出和努力 125.227.230.5 12/06 11:38
推 RIDERKNIGHT:老實講光講不推說不過去根本不夠 125.227.230.5 12/06 11:42
→ RIDERKNIGHT:造謠生事成這樣,不道歉才說不過去 125.227.230.5 12/06 11:42
→ RIDERKNIGHT:還在那邊用居高臨下的態度真的很噁心 125.227.230.5 12/06 11:43
→ ssccg:問題還是在使用者習慣啦,有裝的人自己轉很 117.56.105.98 12/06 12:18
→ ssccg:順,就會不自覺或者傾向存成BIG5 117.56.105.98 12/06 12:18
→ ssccg:不裝的人根本看不到BIG5日文,自然會被強迫 117.56.105.98 12/06 12:20
→ ssccg:都用全unicode,現在常用的ansi大概就剩bbs 117.56.105.98 12/06 12:20
推 Kueiminshan:原來造謠還可以這麼囂張140.114.209.122 12/06 12:41
→ KawasumiMai:看樣子那天花時間作了多餘的事情140.121.210.139 12/06 12:53
→ KawasumiMai:在下的個性是只會針對有錯的部分道歉140.121.210.139 12/06 12:53
→ KawasumiMai:既然跟日文版無關就不再發一篇回文140.121.210.139 12/06 12:53
→ KawasumiMai:最初的用意是希望其他人不要因此後悔140.121.210.139 12/06 12:53
→ KawasumiMai:畢竟這也是在下的經驗跟得到的資訊140.121.210.139 12/06 12:54
→ KawasumiMai:看了這篇文後有想過自刪,不過應該也140.121.210.139 12/06 12:54
→ KawasumiMai:有人會以毀屍滅跡評論140.121.210.139 12/06 12:54
→ KawasumiMai:道歉完再說廢話也會有人認為不夠誠意140.121.210.139 12/06 12:55
→ KawasumiMai:所以在下先把想說的話說完140.121.210.139 12/06 12:55
→ KawasumiMai:最後140.121.210.139 12/06 12:55
→ but:我是希望大家不要戰起來啦~_~ 210.71.217.252 12/06 12:55
→ KawasumiMai:個人對於Unicode補完計畫的詳細原理140.121.210.139 12/06 12:55
→ KawasumiMai:的確有誤解跟錯誤認知,並且誤導各位140.121.210.139 12/06 12:55
→ KawasumiMai:在此對該程式作者致上十二萬分的歉意140.121.210.139 12/06 12:56
→ but:只是因為Unicode補完計畫剛好卡在BIG5跟 210.71.217.252 12/06 12:56
→ but:Unicode轉接的部份 在網路上常常揹負了傳統 210.71.217.252 12/06 12:57
→ but:櫻花輸入法的原罪跟誤解 趁機講清楚而已 210.71.217.252 12/06 12:57
推 newtypeL9:感謝原PO,惠我良多 114.24.10.226 12/06 14:56
推 akumahirosi:神來了快拜 m(_)m 111.248.221.10 12/06 16:40
推 einard666:有看有拜! 211.79.153.138 12/06 17:10
推 articlebear:受惠者跪拜<(_ _)> 203.77.48.117 12/06 20:06
推 roxasd:太神了!遇到初版作者!!快拜!!140.130.175.138 12/06 20:43
推 AoiLibra:有神快拜 m(_ _)m 61.59.237.199 12/06 21:33
推 momizi:感謝 Unicode補完計畫,惠我良多 114.32.108.32 12/06 21:54
推 lkkadd:推~~~ 謝謝你 111.242.173.84 12/06 22:09
推 aini6323:有看有拜!!! m(__)m 61.62.72.52 12/06 22:24
推 rokudo:拜了!!真的很謝謝你<(_ _)> 111.254.47.156 12/06 22:31
推 koicocoro:拜!!!218.160.190.221 12/06 22:43
→ mooor:雖然看不懂,但還是要拜! 至少我用過unicode 210.139.145.80 12/06 23:29
→ mooor:也沒啥不便之處. 210.139.145.80 12/06 23:29
→ orion:無論你們原意如何,事實上就是很多人裝了 59.112.233.59 12/07 00:16
→ orion:Unicode補完計畫後,繼續在用big5日文不自知 59.112.233.59 12/07 00:16
→ orion:原作者勸說大家不要裝是對的 59.112.233.59 12/07 00:17
→ orion:現在裝了只是自找麻煩,尤其是對電腦不懂的 59.112.233.59 12/07 00:19
→ orion:一個時代的解藥,是另一個時代的毒藥 59.112.233.59 12/07 00:22
→ orion:我覺得補完計畫只是在替big日文延壽... 59.112.233.59 12/07 00:38
→ orion:除了BBS,現在真的沒有非用Big5的地方 59.112.233.59 12/07 00:39
→ orion:就讓BIg5日文徹底死掉吧 59.112.233.59 12/07 00:39
推 bluemaria:這麼多年來謝謝你... 114.34.0.153 12/07 01:06
推 sindi:拜140.112.251.194 12/07 01:30
推 TabrisDirac:朝聖~ 218.175.154.52 12/07 03:13
推 samuraiboy:推,我現在也還有在用呢,沒出什麼問題 220.132.139.96 12/07 03:23
推 demon:朝聖推~ 203.72.235.11 12/07 11:58
推 Anauma:推 解決了我對BBS和日文之間關係的疑惑 140.112.229.72 12/07 16:53
推 donkatu:有神快拜 60.249.238.162 12/07 17:25
推 KeroroMorita:朝聖推 <(_ _)> 111.240.160.13 12/07 18:35
推 kaiteng:真是寫的太好了。還好我從來沒有用過這樣 111.240.218.61 12/09 12:32
→ kaiteng:的東西。真的是謝天謝地。 111.240.218.61 12/09 12:33
推 fourleaf1027:推 114.41.97.175 12/09 13:50
推 Icthyoblue:大推,我也用補完計畫很久了。 118.168.64.108 12/12 16:07
推 vpmdlilty:推,以前也用過補完計畫,真的很好用。 211.74.239.61 12/14 11:51
→ vpmdlilty:用EmEditor就不會不小心存成Big5了。 211.74.239.61 12/14 11:54
推 genovis:推!140.137.122.178 04/13 12:35