看板 Chinese 關於我們 聯絡資訊
    給我們一個夠好的簡繁轉換程式吧!   自網路發達,兩岸資訊開始大量交流以來,已經十幾年了。奇怪的是,我們 一直缺乏一個夠好的簡繁轉換程式,以致簡體字轉換成繁體字時錯誤百出;更奇 怪的是,儘管大家經常埋怨這種情況,我十幾年來也沒見到一兩個較好的轉換程 式,甚至沒看到幾篇談「簡繁轉換程式應該怎麼作」、「我想要簡繁轉換程式有 什麼功能」之類有具體改善建議的文章。   是我孤陋寡聞嗎?但我可是從小看著電腦、網路成長,讀過許多關於中文電 腦緣起的著作,還旁聽過兩次談漢字、文史與電腦、資料庫的學術研討會,又是 BBS的重度使用者,現在還在大陸讀歷史研究所的。再說,如果真有較好的簡 繁轉換程式與相關文章,它一定可以被廣泛流傳的。   無論如何,總之我沒看到過,而我不會寫程式,所以就在這裡寫一篇文章, 談談我對解決簡繁轉換問題的構想吧。這篇文章其實五、六年前就該寫了。   簡繁轉換的主要問題,也幾乎可以說是唯一的問題,就是搞不定「一對多」 的函數關係。五十年代中共搞漢字簡化,「隻」「只」都簡成了「只」,「干」 「乾」「幹」都簡成「干」(乾坤的乾倒是沒變),「丑」「醜」都成了丑,於 是笨電腦再一轉回大五碼的繁體中文,就出了一堆「隻有」「豆幹」「周傑倫」 。   要應付這個問題,其實不難,很多人都能想到建立資料庫,寫程式讓電腦判 斷如何轉碼。當然這不能完全解決,例如「小丑」,是要轉成「小丑」還是「小 醜」?後者未必錯,《西遊記》裡就有「么魔小醜」之詞,我們隨便造句也可以 造個「小醜八怪」,或者一個名叫「趙小醜」什麼的人;電腦資料庫再怎麼豐富 ,程式再怎麼聰明,對最後一種情況,還是無法正確判斷,因為你叫一個人來, 他也得去問作者是哪個字,搞不好作者自己也沒想過。但也有一些比較簡單的情 況,如干支紀年「乙丑」「丁丑」「己丑」「辛丑」「癸丑」,都不容易搞混( 當然我們總能用白癡造句法編他幾個例外);而我還是每每在北京──包括本校 ──看到一堆想要美觀而印成繁體字的「乙醜年新春晚會」大型海報。我每次都 要想:你人手動把它改一下,很難嗎?寫程式的設定一下把「乙丑」之類先全部 轉成本字不多出「醜」,把例外留給人去校對,很難嗎?很難嗎?很難嗎?很難 嗎?很難嗎?   我轉簡體編碼文章,短一點的手工校對,長一點的,先下一個「取代」指令 ,把「隻」轉回「只」,多半不會錯。很奇怪,明明「只」就比較常用,許多轉 換程式還是都轉成「隻」;最近我用Word 2007才發現這點得到了改善。然而這也 只是極其有限的一點改善。   Microsoft Word還有個「常用詞匯轉換」功能很會畫蛇添足:碰到簡體的「 程序」,轉到繁體都成「程式」,反之亦然。兩岸有些慣用語是不同,program我 們翻程式他們翻程序,但這兩個詞又不是只對應電腦的program一義,「作業程序 」就很普通,「京劇表演程式」的「程式」也是很古雅的文言,這些東西你亂動 就亂套了,更別說我們還能創造一些叫「程序一」「程式王」什麼的人名。「菜 單」與「目錄」也一樣容易鬧笑話。   平心而論,程式工作者有去在這常用詞匯轉換上下工夫,顯示他們有認識到 這樣的問題,應該肯定;我們也確實存在這樣的需求,例如譯名:斯大林或史達 林或史大林、史太林(幾十年前的書上常見),布什或布希或布殊(港譯),披 頭四(台)或披頭士(港)或甲殼蟲(陸)。但是現在的電腦不可能正確判斷哪 裡該轉哪裡該不轉,例如前面幾句,本意就是列舉三地與今昔的不同譯名,你亂 轉就把原載的信息轉掉了。何況,用哪種譯名能夠反映作者的背景,我們如果一 概轉成本地現今的標準名稱,是可能讓讀者迷惑的。   還有一些人腦也難解決的問題:如果一個大陸人叫「肖云杰」,那他是肖云 杰還是「蕭雲傑」還是其餘六種組合?在漢字簡化運動前生長的名人,如中共元 老陳雲、蕭勁光,我們好復原;如果是1958年後出生的,問他父母或本人,搞不 好也沒想過。再者,「蕭」是一個曾被簡掉,被抗議後又改成「萧」的幾經波折 的姓,但也有許多人沒改回來繼續姓肖,那我們怎麼轉?雖有「名從主人」這一 原則,但我們又未必清楚肖蕭云雲杰傑怎麼想,也就只有從簡了。      還有,我一位學姊校稿碰到地名「于都」,「于」還是「於」查了半天,結 果其實是「雩都」──不過那地方現在還真是叫于都,「因依雩山而得名這回事 大概也沒人會提了吧。」這樣,到底怎麼轉才對,電腦不可能知道;我能想到最 好的方法,就是看該文指涉的是古代還是現代判定,後面再加一條台灣編者註。 但我們不能期望人人都這麼用功吧。那該怎麼辦?把這類古今異名編個資料庫讓 轉換程式索引嗎?那會是非常浩大的工程。   也別說只有簡轉繁麻煩,繁轉簡也有一些問題的,如,BBS上可以用的G B碼字庫沒有「屌」這個字,害我想講屌面人只能用拼音。這是題外話。   那麼,在現有的技術底下,怎樣才可以做出一個好一點的簡繁轉換模組?   我的構想很簡單,就是人工選字──用程式來輔助人工選字。   如,點一下「簡轉繁手工式」,程式就從文件開頭轉起,每轉到有兩種以上 可能的,就跳個視窗出來讓人按鍵選:「1 干 2 乾 3 幹 4 其他」,如果選4就 中斷,讓人手動改完再按鍵繼續。為什麼要多一個「其他」?因為也可能是原文 誤植,把「千」打成「干」之類的情況。這樣一直到完,是最簡單、最笨也最不 易出錯的辦法。還有,可設Enter或空白鍵等於1,Esc鍵等於中斷,這點看似不重 要的小設定是能讓人用得舒服、習慣的。   當然我們可以自動一點,讓電腦先按常例轉一遍,然後將所有可能弄錯的字 套上亮色,人眼逐個看過,看到不對的如「不知所雲」,把滑鼠游標移到「雲」 上點一下,「雲」就變成「云」;還不對的話就手動改了。這也很簡單吧,我們 且先叫它「審閱式」。   看起來,審閱式比手工式方便得多,那手工式能有什麼特別的優點呢?曰: 指引、教育。並不是只有台港澳人士會用到簡轉繁,大陸人、海外華人、外國人 、外星人也可能要用的,使用者未必都能正確判斷哪裡該用哪個字、為什麼該那 樣用。有一種日文輸入法,輸入漢字時,選字視窗旁會開一個簡明辭典,說明該 字字義,供漢字程度不夠的使用者參考;我們亦可效法,在要選「后」「後」「 歷」「曆」的時候,都開個視窗說明音義及其差異,這樣不但便利選擇,做得好 還能傳揚傳統漢字裡的文化精蘊。如,「歷」是在曬穀場上曬稻子,稻禾整齊地 排列開來,農夫一年的勞作、每株稻子的一生也就那樣排列開來;下面一個「止 」字象人站立,這就有了主觀的象徵意義,如歷史、經歷、歷歷在目;換成「日 」字就是象徵客觀的時間,如曆法、日曆。如果你對漢字有這一層的體會,你對 世界的感知能力都會大大增加,閱讀寫作更不在話下;而這一切如詩如畫、濃縮 了古代農業社會圖景的意象,簡化字「历」裡面都沒了。但如果一個簡繁轉換程 式的附屬字典裡能把這些知識加進來,我們就可以在日用之中補課不輟了。那將 是我們文化的一大幸事。   要聰明一點,就讓電腦依據一個詞庫來斷字,這個詞庫要能手動編修,還要 有對「混淆率」的統計和評價,如「乙丑」、「幹部」、「周杰倫」都不太可能 搞錯(除特例及白癡造句),我們就設為C級;「小丑」一般都作丑但也有少數 作「小醜」的,或如「下面」和「下麵」、「體」和「体」、「鬥」與「斗」, 前者居多後者也有的情況,我們設為B級;最難自動判斷的如「天后」「天後」 、「里」「裡」「裏」,評為A級。在「手工式」作業下,使用者可以設定C級 、B級直接由電腦負責,不煩人工;在「審閱式」,則將A級字詞套上最亮的顏 色,B級次亮,C級再次,這樣就能讓人一眼看到最容易出錯的地方。   完了以後,再讓程式統計本次作業的成果:「干」字轉出來有幾個干、幾個 乾、幾個幹,其上下文又分別是那些字(這比較進階),然後錄入資料庫,更新 混淆率的統計,調整評級。這資料庫還要可以傳到本程式的網站上,讓一個統計 中心彙整全世界使用者的情況,再將更新、更可靠一些的詞庫開放下載。   精通中文、語言學與資料庫者(呃,這三項都通的好像不多,我只知道中研 院和北京師範大學「漢字與中文信息處理」研究所有一些),必定還可想出比這 些更能提高正確率的方法;雖然永遠會有程式罩不住的例外,但我們也總是可以 人工校正。   關鍵是,誰能先寫一個哪怕最粗糙的胚子出來?我不奢求智慧型詞庫,只先 來個最簡單的「手工式」或「審閱式」,可不可以?有沒有?誰能寫好這樣一個 轉換程式,必能嘉惠無數網民及專業工作者,清爽無數圖文版面,百年流芳(百 世就先不論了),功德無量!   給我們一個夠好的簡繁轉換程式吧! 附錄:     《都不錯歌》 作者:沙予  (原載《文傳論叢:2004年第三屆漢文史資料庫研討會論文集》,文信傳文史研究院。亦 載《漢字文化》2006年2期) 澳洲華文報刊上同音字混用的現象,人們都已司空見慣,但稱名家郁風為静風,余光中為 餘光中,則堪稱為與時俱進之創舉。恰如用問號代替找不到的某些鉛字之不乏創意。審訂 和推行簡體字的文字學專家,不會有錯。用電腦把簡體字一律還原為繁體字,以使海外華 人看得懂,這更没有錯。現斗膽摘取澳洲報刊上常見的由簡變繁,同音但不同義的字混用 的趣事,凑成打油詩《都不錯歌》一首,以娛諸公。此詩平仄不調,對仗不工,當然也没 有錯。   夏五郭公尋常見,   魯魚亥豕久相通。   嶽飛追諡尊武穆,   奕[言宁]登極號鹹豐。   韋陟豈辭刀削面,   劉幫能忍箭傷胸。   碑成無字武皇後,   卜獲非熊薑太公。   甦武留鬍十九載,   鐘馗捉鬼兩三籠。   萬裏徵東薛仁貴,   單騎救鬥趙子龍。   遁居五湖歌範蠡,   逼上梁山泣林衝。   子曰詩雲四舊也,   如今題字學干隆。 (原文有完整註解,網友可於 http://qkzz.net/magazine/1001-0661/2006/02/hzwh20060236.PDF 下載!) --   時候到了。看著,   當我推開這大門,   重新震醒你們的時候,那光芒--   這光芒,便是一萬丈!                     http://www.youtien.idv.tw -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.193.33.107