看板 IME 關於我們 聯絡資訊
論詞庫之於輸入法 主講人:蕭易玄 ■ 什麼是詞庫 說到「詞庫」這個東西啊,輸入法創造者對它有著不同的評價。有的輸入法是重視字 的輸入,對詞庫深惡痛絕,說「詞庫」是「不正規」的東西。也有輸入法是把詞庫當成輸 入的輔助。不過,對注音輸入法而言,「詞庫」可以說是不可或缺的吧,因為注音輸入法 需要依靠詞庫來提高它的效率。 什麼是詞庫呢?我以注音舉個例子說明詞庫的原理與運作方式。「ㄆㄧㄥˊ」這個發 音有很多字,而「ㄍㄨㄛˇ」這個發音也是,但是「ㄆㄧㄥˊ」「ㄍㄨㄛˇ」連在一起的 呢?只有「蘋果」這個組合吧?所以輸入法直接送出「蘋果」給你,而這也是你要的。是 不是就提高了效率? ■ 詞庫的使用方式 雖然不同的輸入法對詞庫有不同的運用方式。但是不約而同的,都是希望利用詞庫方 便使用者的輸入。也因此,詞庫的輸入方式,相對的也關係到使用者的輸入效率。 1. 以智慧型注音來說,就是以上面舉的「蘋果」那個例子的運作方式。好處是幾乎不 用選字,缺點是電腦經常幫倒忙選錯,就會產生像是「問世姦情為何物?」這樣的有趣句 子。 2. 以前有出現過一種「散彈注音」,利用取頭尾的方式輸入,「蘋果」打「ㄆㄥㄍㄛ 」就好了。按鍵上少很多,不過在實際輸入的時候,使用者要跳過「ㄧ」「ㄨ」的取碼, 有些人不太習慣。 3. 一般的拆字型輸入法,有一種叫「無為而治」的方式。就是開放讓使用者自己去編 。例如使用者定義:「OPEC」就是「石油輸出國家組織」,那打「OPEC」就會出現「石油 輸出國家組織」。好處是自由定義,缺點就在定太多的話,容易忘記。 4. 跟這種方式很像的,有一種叫做「天馬行空」。差別只在於是輸入法公司定的,讓 使用者比較好記、比較有通用性。也不能說好或是不好,總之見仁見智,我們不去評論。 5. 一般輸入法比較會去使用的,是用自己輸入法的拆碼方式去編詞庫。對,智慧注音 就是,但是我們這邊探討一下拆字型的輸入法。比如大易輸入法用的方法是「頭尾頭尾」 (二字詞)跟「前三後一」,前三字的頭碼跟最後一個字的尾碼。輕鬆輸入法用的是「頭尾 頭尾(二字詞)跟「最多前四頭」。那個比較容易在輸入時輸入,也是見仁見智,自己打打 看就知道了。 ■ 詞庫在輸入法中的地位 一個輸入法依據性質的不同,對詞庫的依賴程度也不同。 有的輸入法對字的輸入已經非常嚴謹,那它可能就把詞庫當成使用者的輔助,甚至有 的是單字版免費,詞庫版收錢的輸入法。 當然也有輸入法把詞庫當成送給使用者,讓他們方便設計一些常輸入字的功能。這樣 的輸入法是不會內建詞庫的。 而對一些門檻低、選字率高的輸入法而言,詞庫可以說是救星,藉以提升效率。這對 使用者當然是件好事,而且可以彌補單字選字率太高的缺點。這個部份的話,以現在的【 輕鬆輸入法】,可以說達到最大的利用率。除了利用詞庫的輸入外,還加了利用詞庫輸入 單字的「五碼定字」特別輸入方式。很充分的利用了詞庫的優點。 ■ 詞庫的大小與品質 一般輸入法(當然是指有內建詞庫的)詞庫的大小通常是一萬五到十幾萬(條)的差別。 例如以前DOS時代倚天中文的忘形輸入法大約是一兩萬詞,微軟新注音大約三萬詞,舊 輕鬆輸入法有十萬詞,現在的輕鬆輸入法2004因為包含了五碼定字功能,更是多達三十五 萬詞。 而詞庫的品質也關係到使用者實際上機時的輸入效率。愈多的詞庫,固然在理論上愈 能讓使用者輸入更方便,但是收錄太多冷門的詞彙,反而會讓輸入效率降低,因為太冷門 的涹A影響到常用詞,在輸入時必須選字。 ■ 詞庫的先天限制 詞庫的缺點,就在於他自身。因為詞庫的興起,是來自「詞」這個概念。而現在詞庫 中詞的概念,大多數是指白話文中、口語中的「詞」。也因為是白話文、口語上的使用, 所以「詞」當然就不可能包含「不常用字」。意思就是一些古字或是無意義的字,通常是 不會有詞彙的,例如「髟」、「嵢」…等等。 這些字,終究還是得乖乖的用單字打法去打,所以如果是拆單字會很困難或是太沒效 率的輸入法,遇到這些字時,就會拖累效率。 ■ 詞庫的展望 詞庫雖然有它的限制,不過隨著中文的發展,在一般日常應用上會愈來愈實用。大陸 中科院的研究成果表示:當前的漢字輸入技術,基本上都是以單字輸入為主,輔以或強或弱 的詞組輸入方式。 現在原本倚重詞庫的輸入法,已經開始逐漸走向「以詞為主,單字為輔」的趨勢,這 樣的發展,可以說是勢在必行。因為中文不可能再回到古代那樣的文言文,加上現代中國 語文,是以詞為主要結構的特性,以詞為單位的輸入,可以說是中文的輸入的一個燈塔、 可以前進的目標,是外語無法做到的。 我的演講到此結束,要扔蕃茄、雞蛋的,請等我離開後再自由動作,謝謝… - -  ▽  -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 218.166.89.185