看板 Liu 關於我們 聯絡資訊
※ 引述《ANGELB (神仙B)》之銘言: : 十五年前學了蝦米 : 那時聲勢如虹 打字比賽接連冠軍 : 在網路資訊較不如現今易於搜尋的時期 : 一度以為蝦米是王道 : 學成之後 細細回想其實這輸入法也還好而己 : 不知十幾年前嘸蝦米贏過倉頡這股潮流根據的事實從何而來 : 後來看了這一系列的比較文 有條有理 : https://goo.gl/5U4zp 這篇文章對於重碼字的分析很不嚴謹, 首先,只給出「重碼表」而沒有附上編碼表的來源,不知如何檢驗起 其次,論證看似有條理,但實際上有大漏洞, 1. 只考慮 Big5 字,也沒考慮字的出現機率。 自然語言有「齊夫定律」的現象,高頻字出現的機率會是低頻字的數百甚至數萬 倍,高頻字(如「精」、「睛」)重碼就很令人困擾,低頻字(如「筶」、「簹」 、「艡」)重碼就沒什麼關係。 2. 重碼率高,選字率就高,這是事實,但不代表打得慢! 嘸蝦米多數 2~3 碼,即使要加上 VRSF 或 1234 選字,也不過是 3~4 碼,比起倉 頡動不動就 4~5 碼的,誰快誰慢很難說。 不能像原來裡用一句「這項統計資料沒有原始來源可供驗證」來代過,更不能直 接推論選字率高等於需要的碼數較多 第五代倉頡和嘸蝦米的編碼表,在網路上都可以搜到,我統計出兩種輸入法的 總字數 重碼字數 允許多種拆法的字數 平均碼長 倉 70833 22552 (31.84%) 3941 ( 5.56%) 4.418 +- 0.76 嘸 19680 14449 (73.42%) 7950 (40.40%) 3.558 +- 0.64 可以發現 1. 重碼字數被嚴重低估了。尤其是嘸蝦米的重碼字數更是直破天際。但其中大 多數是因為標點、符號等,例如「,J」就有 18 個候選字 2. 倉頡四碼起跳是基本,而嘸蝦米很少超過四碼。符合上面第二點的質疑,嘸 蝦米即使要選字也不會比較慢 3. 倉頡幾乎沒有容錯空間,一個字就一種拆法,罕見字或異體字不會寫就沒救了 為了測試真實打字的情形,我從 Clueweb09 https://lemurproject.org/clueweb09/ 取樣了共2000萬字當作語料庫。這是 2009 年爬下來的中文網頁,應該很符合現代人 輸入的需要。我統計出一份字頻表 https://github.com/iamalbert/ime-analysis/blob/master/cht.small.freq.json 另外,考慮實際輸入,重碼字也直接增加 1 碼,如「囧」原來拆 OBN 三碼,因為選字 變成 OBN2、OBNR 直接視為四碼,假設一律用最短碼輸入,計算碼長以字頻加權: 最常使用的 13806 字 (語料庫共 209491942 字)的情形 總字數 重碼字數 多種拆法的字數 平均碼長 加權碼長 倉 11790 1456 (12.35%) 1181 (10.02%) 4.065 +- 0.76 3.519 嘸 11797 7076 (59.98%) 5091 (43.16%) 3.407 +- 0.66 2.328 嘸* 3.507 +- 0.65 2.651 嘸** 3.579 +- 0.63 2.841 *: 假設只有 50% 的字用了最短碼 **: 假設只有 30% 的字用了最短碼 結論也很明顯: 1. 如同網頁所說,嘸蝦米用了一堆簡碼來解決重碼問題,效果實在不怎麼樣, 就算背了全部的簡根(100%),比起幾乎不背(30%) 大概兩個字只省 1 碼 2. 嘸蝦米的一碼二碼字的安排比傳統倉頡好太多了,倉頡只能省掉 0.5 碼,嘸 蝦米可以省掉 1 碼左右 3. 總地來說,嘸蝦米還是比倉頡快上 25% ~ 52% [註] 同場加映大新倉頡 總字數 重碼字數 多種拆法的字數 平均碼長 加權碼長 大新 11879 7648 (64.38%) 5482 (46.15%) 3.451 +- 0.71 2.042 大新* 3.553 +- 0.71 2.431 大新** 3.601 +- 0.70 2.614 毫無疑問地樂勝嘸蝦米,尤其平均 2 碼真是太銷魂了 :) 由此可見重碼、容錯都不是問題,只要常用字夠短,速度就會快。 TL;DR 大新倉頡 > 嘸蝦米 >> 傳統倉頡 原始碼都在 https://github.com/iamalbert/ime-analysis [註] 打字速度(理論上)就是加權碼長的反比。我相信這樣算是很準的, 嘸蝦米加權碼長/大新加權碼長 = 2.138/2.042 = 114.39% 大新最快記錄/嘸蝦米最快記錄 = 238每分 / 209每分 = 113.88% : 其實都被他說完了 : 說實在的 輸入法不夠理想是其次 : 重要的是使用不方便 : 現在公領域中 很常會用到電腦 : 購物啦 : 誠品書店查書的iPad啦 : 等等 : 根本沒有蝦米可打 : 不開放是一回事 : 不管什麼系統 : 行易的動作總是慢吞吞 : 支援度很差 : 反之 : 倉頡無處不在 : 連PS4遊戲機的OS繁中底下的輸入法 : 竟然只有兩種 : 一為注音 : 一為倉頡 : 倉頡的方便性 : 可能是拆字輸入法的第一名吧 : 不知道棄蝦米從倉頡 : 砍掉重練 投資報酬率值不值得? 這其實真的還好,就忍受那一兩分鐘而已,平常打game時的速度比較重要 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.23.97.126 ※ 文章網址: https://www.ptt.cc/bbs/Liu/M.1505611203.A.99B.html ※ 編輯: bibo9901 (163.23.97.126), 09/17/2017 09:21:20 ※ 編輯: bibo9901 (163.23.97.126), 09/17/2017 09:28:06 ※ 編輯: bibo9901 (163.23.97.126), 09/17/2017 09:29:03
weiih: 認真給推 09/17 10:57
※ 編輯: bibo9901 (163.23.97.126), 09/17/2017 13:38:59
deltazone: 推! 09/17 14:59
magicbe: 神の分析,與2183一樣,非常棒的參考資料 09/17 20:21
goldie: 推! 09/18 00:31
Tsai07: 弱弱問一下什麼是重碼率? 09/18 19:14
goldie: 重碼率… 多字同一拆碼的字數總和… 比上全部字數…的比 09/18 22:46
goldie: 例。 09/18 22:46
vaper: 字碼多,重碼率就低,反之亦然。嘸的優勢就限制在四碼 09/29 18:49
vaper: 雖然重碼率較高,但再輔以二碼常用字,整體消長下是較優的 09/29 18:50
vaper: 光譜兩端沒有孰是孰非,只是平衡與效率的問題 09/29 18:51
vaper: 簡單說,如果你用注音就能快嘴嗆爆對方,何必用其他輸入法 09/29 18:53
ming12345: 嘸蝦米加選字,和倉頡四五碼的按鍵數相比,未必會輸, 10/09 14:55
ming12345: 但選字簡碼要另記,倉頡則完全依照規則,各有利弊 10/09 14:55
ming12345: 原文是:[嘸蝦米 6000 字有 311 個選字,2000 字有 33 10/09 15:17
ming12345: 個選字,1000 字有 8 個選字。這項統計資料沒有原始來 10/09 15:17
ming12345: 源可供驗證。] 10/09 15:17
ming12345: 所以是嘸蝦米低重碼的資料沒有原始來源,不是倉頡低重 10/09 15:17
ming12345: 碼的資料沒有原始來源,你拿這句話來批,是不是斷章取 10/09 15:17
ming12345: 義了 10/09 15:17
oktryit: 我個人也是覺得日常用字應該是嘸 >>> 倉,效率樂勝 10/26 05:31
oktryit: 之前也有接觸一下大新倉頡,也蠻快的就是惹,但先學先贏 10/26 05:32
oktryit: 這是不爭的事實,反正嘸蝦米打夠快惹,就懶得換大新。 10/26 05:32
oktryit: 附註一下,我大概用了 70% 以上的簡根,二碼字,有一些 10/26 05:33
oktryit: 會反手的就不用二碼字,例如,跟 =qz,汽 = wz,債 = dz 10/26 05:35
oktryit: 貴 = qa 也蠻少用的,我反而會打 cemb,主要是小指按的字 10/26 05:38
oktryit: 一來會轉換成其他方式,一來就是小指沒什麼力氣 10/26 05:39
oktryit: 結論是,我認為要打的過,按鍵的順序性也有差,不然就不 10/26 05:40
oktryit: 會有人轉換 Dvorak 鍵盤來打字,嘸蝦米似乎沒考慮到這 10/26 05:41
oktryit: 好在,q 或 z 的字根不多,但是 a 的字根就很多就是了。 10/26 05:42