作者solaris10 (柚帥柚美可憐可愛)
看板Liu
標題查碼程式新功能:加入 Extension A/B 的字
時間Mon Sep 3 13:32:31 2007
(原文放在嘸蝦米查碼程式
http://liu.twbbs.org/liuzmd1/
及查碼程式部落格
http://blog.pixnet.net/liuzmd1/post/8286373 上。
由於在 BBS 裡無法貼圖及使用超連結,所以此文章看起來比較亂,
想看到比較容易看的的版本請點上面兩個網頁。
)
查碼程式新增了一個重要的功能:加入 Extension A/B 的字!
http://tinyurl.com/cdhqr 有介紹 Extension A/B 的由來,
文中所提到的 擴展A區 和 擴展B區 就是 Extension A 和 Extension B。
簡單來說,查碼程式加入了大概五萬個罕用字(約六萬個編碼)的拆碼,
並且出了一個相對應的加字加詞檔給偽蝦使用,對於經常需要使用罕用字
的人來說會很有幫助。
但是並不是每一台電腦都有裝 Extension A/B 的字型,所以很多人沒辦法
看到這些字。就目前所知,Vista 的電腦可以看得到,而 XP 看不到,
要另外安裝字型。不過本查碼程式是用圖片來顯示這些罕用字,
所以不管你有沒有安裝 Extension A/B 的字型,都可以正常的使用查碼功能。
以下是一些查碼的範例
* 在 2588 篇有人問 玄頁 這個字怎麼拆?用查碼程式查 LWTB,在右上方
的 Extension A/B 裡可以看到這個字,點進去之後就可以看到這個字的
拆碼,同時也附上全字庫的連結,連進全字庫就可以知道這個字念
ㄒㄩㄢˋ。
* 如果有裝 Extension A/B 的字型,也可以用"複製貼上"的方法來查碼
* 在 2705 篇有人問 金音 這個字怎麼拆?用查碼程式查 ALD ......
沒有這個字!去全字庫查詢之後找到這個字的 網頁,發現這個字只有
CNS 和 EUC 的編碼,
CNS: 11-4D6F 戶政EUC: 8EABCDEF
而沒有 Unicode 的編碼,所以這個字即使在 Vista 上也看不到,
當然更打不出來。
* 在 2859 篇有人問 奇 上面加草字頭要怎麼拆。這個字更慘,連全字庫上
都沒有登錄。
* 查碼程式也可以使用萬用字元 * 和 ?,所以也可以查 a?b 或 cb*d 之類
的碼。
* 如果只知道 CNS 編碼,也可以用此編碼來查字,例如 3-216F 或 11-212B。
* 如果只知道 Unicode 編碼,也可以用此編碼來查字,例如 U+7C21
或 u+5229。
以下是一些可能會遇到的問題:
1. 問:這些字的嘸蝦米碼確定都對嗎?
答:不確定!其實應該做這個編碼的是行易公司,而行易也的確做了一個
查怪字程式,只是這個查怪字程式的資料沒有公開,也沒有編入
第 10 和 11 字面的字,所以我們才以個人的力量來完成
Extension A/B 的編碼。
2. 問:編碼的時候是只有編入基本字根,還是連簡速字根都有加入?
答:原則上是以基本字根為主,另外儘量加入簡速字根以及大量的容錯拆法。
3. 問:很多字的編碼怪怪的,比如說
http://liu.twbbs.org/-DMTC ,應該是拆成 CNC 就好,為什麼還有 CDC
或 CNCL 的拆法?
答:如上所述,我們在編碼的時候會儘量納入容錯拆法。在行易公司的查怪字
程式裡,所有的「色」都有 NC 和 DC 兩種拆碼,所以我們碰到這類的字形
都會「儘量」加入 D 和 N 兩種拆法。至於 巴 也是一樣,我們會儘量加入
C 和 CL 兩種拆法,即使我們明知 巴 本身就是一個字根 C。
4. 問:可是還是有很多奇怪的編碼,比如說
http://liu.twbbs.org/-DKjI
怎麼會拆成 ZLOH?應該是 ZYPH 吧!中間那個字形明明比 厂 多了一筆!
答:在嘸蝦米剛開始發展的時候,還沒有 Extension A/B 這種東西,
甚至沒有 Unicode,所以一開始的字根設計在現在來看就有不少的落差。
以這個字形來說,從查怪字程式裡可以看出劉先生把這樣的字形都編成 L,
所以我們也把這個字形訂成 L。
實際上還有很多類似的例子,不少罕用字長得很奇怪,單用標準字根是
拆不出來的,所以行易公司在查怪字程式裡加入了大量的容錯拆法和
「類比字根」!碰到這一類的字得多用一點「想像力」,多試幾種可能的
拆法才比較有機會拆出來,重點不在於某一個拆碼是不是完全符合標準
字根,而在於嘸蝦米使用者是否能夠很有效率的檢索到這個字。
5. 問:如果真的對某個字的拆碼很不滿意,可以要求修改嗎?
答:當然可以,請在該頁面的下方留下你的心得,講講你認為要怎麼拆比較好,
大家可以一起討論要怎麼改。
6. 問:如果查不到字該怎麼辦?
答:先試著用不同的拆法試試,如果還是不行的話,到 全字庫網站 去搜尋。
實際上全字庫網站裡還有一兩萬個非常罕用的字是 Unicode 裡沒有的,
這些字沒辦法顯示在電腦上,也沒有辦法打出來。
7. 問:Extension A/B 的字型要去那裡抓?
答:我自己是安裝微軟的「新細明體套件」,這個套件在微軟的網站上已經
抓不到了,不過去網路上搜尋一下,還有很多地方可以下載,比如說
chweng大的網站
http://blog.chweng.idv.tw/archives/221 。
但是請特別注意,有很多人說新細明體套件的字比較醜,比如說
ChrisTorng 的這篇文章
http://groups.msn.com/ChrisTorng/newsannouncement.msnw?
action=get_message&mview=0&ID_Message=4947
(因為童大不愛用短網址,所以上面兩行請自行接起來)
用了之後如果不滿意,請參考
http://blog.yam.com/yoren/article/4997866 來移除。當然,除了
新細明體套件,還有很多字型可以用,就麻煩各位自行搜尋了。
8. 問:Extension A/B 的加字加詞檔要去那裡抓?
答:
http://liu.twbbs.org/liuzmd1/liu.box/ 。請注意一件事,
為了避免 Extension A/B 的字和原本參考檔的字衝突,我的設計是
拆碼的後面都要加一個分號 ; ,也就是說要輸入這些 Extension A/B
的字,要使用像「RORF;」這樣的拆碼而不是「RORF」
9. 問:要怎麼使用加字加詞檔?
答:請將此加字加詞檔與偽蝦的主程式放在同一個目錄,並且確定在偽蝦
裡已經啟用了加字加詞的功能。
10. 問:使用了這個加字加詞檔之後,偽蝦啟動的速度變得很慢,這是
怎麼回事?
答:本加字加詞檔非常大,有可能使偽蝦啟動及更新加字加詞檔的速度
變慢,實測的結果有可能會造成偽蝦需要35秒才能啟動,所以請
自行評估是否真的要載入這麼大的檔案。我們的建議是挑選某些
會用到的罕用字,再自行放入自己的加字加詞檔。
本次編碼是由批踢踢上的 Ciwx, Linpien, Solaris10 合力完成,
而 CNS11643 的資料則是來自於
行政院主計處電子處理資料中心及中文數位化技術推廣基金會
的 全字庫網站。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.134.104.183
※ 編輯: solaris10 來自: 220.134.104.183 (09/03 13:33)
推 ciwx:頭推! 09/03 13:34
推 tingyang:胸推 09/03 13:58
推 TWCHIEN:頸推 09/03 13:59
推 linpien:含淚推... 09/03 14:09
推 evilmask:不推不行的大作完成了,感謝幾位的辛苦 09/03 14:53
推 hatebus:推 09/03 16:29
推 pipw:太感謝了,正問完沒多久而已。 09/03 17:26
推 rurihome:重要的里程碑呀 必推 09/04 00:07
→ ChrisTorng:建議除圖片外還要加上以文字顯示,因會需要複製該字 09/04 09:38
推 zfs:推!Great! 09/04 11:16
推 solaris10:給童大,已經加上去了 09/04 22:05