Re: [討論] 嘸蝦米規則和中文日文韓文大一統

作者Frozenmouse (＊冰之鼠＊)

看板Liu

標題Re: [討論] 嘸蝦米規則和中文日文韓文大一統

時間Wed Jul 1 09:57:58 2015

來試試看用平板回文…XD ※ 引述《deltazone (洋蔥)》之銘言： : 沒錯! andriod手機的limd-hd輸入法打嘸蝦米已經是這樣了! : 也就是我說的"大字庫"概念，但沒有(簡日繁)模式可改變! : 且limd-hd混雜了未完成碼先出現的概念(如打lul後面選字會出現lulk "襲") : 這個先不提，不要混淆了! 部分取碼這個和我們現在討論的的確比較沒關係XD 不過既然提到 Lime HD，稍微提一下模式轉換的問題在 Windows 底下，有大家熟知的 ,,T ,,J 之類的方式可以切換模式（Win8 的 TSF 版好像沒有？待查證） Android 蝦也有左右滑動空白鍵的方式來切換但是像 Lime HD、gcin、ibus 等等的通用輸入法框架則需要通過獨立安裝字碼表，以各別獨立的輸入法看待看起來通用輸入法框架似乎比較弱但我覺得只是 Win 版和 Android 版把問題隱藏起來了所以就算「大字庫」真的完成了，為了支援語言切換還是會面臨到同樣的問題你需要為各個語言模式提供儘儘排序不同的編碼表不過我個人很期待它的完成現在生活中偶爾也會出現一些罕用字與和製漢字為了它們，我得特地去切換輸入法，輸個一兩字再回來某方面來說也滿累的在 Unicode 當道的時代我認為已經不適合再用語言模式去區分能輸入的字了像那個我們已經講到爛了的「鱇」XD : ====================================================================== : 最後提出當初想改變嘸蝦米，為何會想這麼改變的思路想法(除了推廣嘸蝦米之外) : 主要要說明的有下面兩點: : 一、大字庫和大一統東亞文字 : 二、模式(日繁簡韓)獨立 : ========================================================================== : 一、大字庫和大一統東亞文字: : 嘸蝦米是一個輸入法! : 那電腦文字內碼，其實也是一種輸入法 : (這裡所說的電腦文字內碼是如 GB 和 Big5 姑且稱為 [電腦內碼] ) : 為何說電腦內碼是一種輸入法?! : 因有一種輸入法是輸入內碼 (中文的電腦內碼) 碼號，然後就可以打出中文 : (我想這種輸入法日常應該沒人用，誰會去記無邏輯的電腦內碼) : 其實嘸蝦米的編碼概念(或其他任何輸入法皆相似) : 可以把它類比成 "電腦內碼" : (如lul=龍，lul是"龍"的碼) 大致是可以這樣類比其實內碼輸入是最極端的輸入法了對全文字提供絕對的支援，但前提是你要查得出編碼… : 最初"電腦內碼"多是像 shift_jis(日文) big5(繁體) 和 GB(簡體)等一樣 : *****一種語言文字，一種"電腦內碼"去做對應***** : 現今不同語言文字，有不同的輸入法(如日文繁中簡中等)，也如上面一樣 : 到此我的思路為: : 類比: "不同語言文字的輸入法" = "不同語言文字的電腦內碼" : 例如: (新注音輸入法 vs 日文xx輸入法) = (big5(繁中) vs shift_jis(日文) ) : 只使用中文的電腦內碼(如:big5)，無法解開日文的電腦內碼(如shift_jis)的文字 : (不同語言的電腦內碼，無法解開其他語言的電腦內碼!!) : 不同語言的輸入法也一樣，無法打出彼此的文字 : (如:注音輸入法無法打出韓文!) : *****後來，電腦內碼完善了 unicode ，且經過多次的修正 : 把全世界的各種文字和符號做大一統!!!! : (雖然GB BIG5 等等的電腦內碼還存在，但使用unicode編碼(內碼) 非常很盛行! ) : ////以上就是我想把嘸蝦米變成像unicode一樣，做大一統的思路，所以才會有"大字庫" : 和"一統東亞文字"的想法 : ///電腦內碼從每種文字一種字碼(如:GB和big5)， : 到unicode大一統，所有語言文字全包 : ///靈感就是想把嘸蝦米變成像unicode大一統的的概念 : 一定有人質疑把嘸蝦米變成大一統的好處呢? : 那我想"假裝質疑"，為何unicode要大一統所有各國的文字?????? XD : 以前那樣分成GB big5 shift_jis等等各國不同的電腦內碼，不是也可以閱讀各國文字 : (類比成想打日文就用日文輸入法，想打韓文就用韓文輸入法) : unicode何必如此大工程的搞一個大一統呢!? 來回答你的假質疑wwwwww Unicode 要解決的是資料交換的問題以前各國各文字都用不同的編碼，在資料交換時還得經過對映的手續你還得清楚知道你的來源編碼、目標編碼是什麼就像你先前提的，編樓不對就解不對文字明明是 big5 卻用 latin-1 去解，那就會看到一堆亂碼平平都是日文，你用 euc-jp 解 sjis 的文件也還是會錯在近十幾年來，中日逐漸交流頻繁，在中文穿插日文的機會大幅上升但自然是不可能在同一個文件中使用兩種編碼於是就出現了「櫻花輸入法」與「Unicode 補完計畫（現有代碼 big5-uao）」這兩個讓人又愛又恨的東西愛的是它確實解決了日文在繁中 big5 編碼下的問題恨的是它不是標準，它沒有內建，就像戶政造字自爽一樣假設全世界都用同樣的編碼交換資料，編碼轉換的問題也就消失了我認為這是 Unicode 存在的意義，它把編碼統一的理由在這而且是國際標準，簡單說就是放諸四海皆準同時，在不同編碼間轉碼的時候也能作為中介參照原本的多對多關係，可以大量簡化為多對一對多的兩層對照關係轉碼的工程就小很多了（雖然說到這還是無法理解 Unicode 8.0 為何加入獨角獸圖案…）而最近全球化的發展更讓國與國之間的語言界線不再絕對近幾年 Unicode 已經足夠流行了在網路上若看到還維持大五碼或 sjis 等本地編碼的網頁大多不是食古不化的機關設置的，就是從以前沿用到現在的而也像我之前說的，和製漢字有回流至中文的狀況一般使用中文也可能會不自覺要打那些漢字基於以上理由，我認為無蝦米現行的模式切換稍嫌與時代脫節而你提出的「大字庫」試圖突破模式間的隔閡，我認為這是主要價值 : 有人一定會質疑，輸入法和電腦內碼還是有所不同， : 但不想多講了XD 因為會一直繞圈子!XD : 思路如上! 那我再多嘴一下好了（遮臉）輸入法就是接受使用者的輸入，經過轉換之後輸出成特定的字句使用者的輸入是有一定邏輯的，可想成是經過某種編碼就算是內碼輸入也是如此就這點而言，把使用者的輸入類比成對字的編碼，我個人沒什麼意見XD : =========================================================================== : 二、模式(日簡繁)獨立 : 而unicode有一個東西叫做 "中日韓統一表意文字" : 其做法如何呢?! 如:戶户戸(繁簡日) 都把它的內碼編為U+6236 : 因為都是同一個意思，所以訂定為同一編碼! : 但是怎麼會看起來不一樣，因為使用 "繁簡日各自的字型" 去區隔 : (大致是這樣，細節其他先不要追究了!XD) : 所以會有三種不同的 "戶""户""戸" 雖然我懂你的意思，但歹勢，這好是沒統一到的反例XD 中文維基這裡寫得很矛盾，同時舉它為統一和未統一的例字事實上戶 = U+6236 户 = U+6237 戸 = U+6238 不過論述大致上無誤 : 而我所想改變後的嘸蝦米， : 其中"模式" 就類比為 "字型" ，有前面unicode的包山包海的概念， : 然後使用一個東西獨立去 "分野"各種不同的語言文字 : ///這裡重點只有一個， "分野" 各種不同的語言文字 : ///我改變後的嘸蝦米，是以各種模式(日簡繁)去分野不同語言文字的輸入 : ///日文繁中簡中分別有三種不同的字型，去區隔，且字型間彼此獨立， : 但是其電腦內碼都在unicode的"大字庫"中! 這類比我覺得 OK 「戶」就放繁中第一順位「户」就放簡中第一順位「戸」就放日文第一順位基本編碼共享，唯排序根據語言做最佳化而若我的認知沒錯，你的「大字庫」概念是更進一步的把「龍、竜、龙」一類的「多語同義漢字（暫稱）」也做整合考慮到的是更廣的範圍 : ========================================================================== : 表達不是很好! : 沒有辦法說服大家嘸蝦米大一統東亞文字的野心和盼望XD， : 但目前大家也都沒辦法說服我大一統這個概念是個沒必要的構想XD : 這篇是以我想把嘸蝦米輸入法做大一統的靈感來源之一 : 但還望嘸蝦米能大力推廣廣泛流傳下去XD : 只是不想在推廣上著墨了!說多了! 且一直打轉! 等於沒說! (淚) 我個人也是希望嘸蝦米更好在電腦上、在行動裝置上，它還有很多可以改進的地方推廣則涉及太多方面的因素，我想像力真的不太夠 orz ----- Sent from JPTT on my Htc Nexus 9. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.109.225 ※ 文章網址: https://www.ptt.cc/bbs/Liu/M.1435715889.A.868.html ※ 編輯: Frozenmouse (122.116.109.225), 07/01/2015 10:03:03

推 deltazone: 戶户戸的unicode編碼的確如你說的不同編碼 07/01 16:44

→ deltazone: 維基百科有誤?!XD 07/01 16:47

→ deltazone: 當初unicode的字碼和字型概念不知從哪爬文看到XD 07/01 16:48

→ deltazone: 所以舉了個爛例子XD 還是unicode後來的修訂編碼有改??? 07/01 16:49

→ deltazone: 先不理這個了XD 但概念思路大致如上 07/01 16:50

→ deltazone: 另外你說的沒錯是"編碼共享"的概念口拙還是你高竿! 07/01 16:52

推 deltazone: 另外你說的"多語同義漢字" 現在蝦米已經有了 ! 07/01 16:54

→ deltazone: 只是在編碼上"多語同義漢字"重疊碼，但選字方面沒有 07/01 16:57

→ deltazone: 另還有你說的缺口問題 07/01 16:58

推 deltazone: 另外最開頭的編碼表問題 07/01 17:01

→ deltazone: 其中說到編碼表排序我最開始想到的是用資料庫的樣式 07/01 17:02

→ deltazone: 只用一張編碼表然後表格後標示這個碼為簡繁日文 07/01 17:03

→ deltazone: 標示是否為常用字去影響選字的排序 07/01 17:04

→ deltazone: 還有其他的標示等去影響選自順序有點像搜尋的概念 07/01 17:06

→ deltazone: 輸入法實際是否可以或方便這麼做還需要軟體工程師 07/01 17:07

→ deltazone: 如果有問題就像你說的每個模式一個不同順序的編碼表 07/01 17:09

推 deltazone: ================================================== 07/01 17:16

→ deltazone: Frozenmouse大的敘述比我好太多了! 就是我要表達的! 07/01 17:19

推 deltazone: ================================================= 07/01 17:27

→ Frozenmouse: 維基有錯其實很常見…XD 07/01 18:48

→ Frozenmouse: 還好沒會錯意，怕是我講錯搞錯你的意思XD 07/01 18:52

推 maply0703: 其實就我個人來說反而不太喜歡分字表或切換式方式 07/03 10:02

→ maply0703: 因為本來就是以繁中為主，會打其它語字漢字不是常用 07/03 10:03

→ maply0703: 所以反而是統一字碼表，同碼選字的方式比較適合我 07/03 10:04

→ maply0703: 這樣需要打這些少用字時反而方便 07/03 10:04

→ deltazone: 嘿呀! 不影響平常打字速度的狀態下! 選字有其方便性! 07/03 10:24