精華區beta Liu 關於我們 聯絡資訊
(原文放在嘸蝦米查碼程式 http://liu.twbbs.org/liuzmd1/ 及查碼程式部落格 http://blog.pixnet.net/liuzmd1/post/8286373 上。 由於在 BBS 裡無法貼圖及使用超連結,所以此文章看起來比較亂, 想看到比較容易看的的版本請點上面兩個網頁。 ) 查碼程式新增了一個重要的功能:加入 Extension A/B 的字! http://tinyurl.com/cdhqr 有介紹 Extension A/B 的由來, 文中所提到的 擴展A區 和 擴展B區 就是 Extension A 和 Extension B。 簡單來說,查碼程式加入了大概五萬個罕用字(約六萬個編碼)的拆碼, 並且出了一個相對應的加字加詞檔給偽蝦使用,對於經常需要使用罕用字 的人來說會很有幫助。 但是並不是每一台電腦都有裝 Extension A/B 的字型,所以很多人沒辦法 看到這些字。就目前所知,Vista 的電腦可以看得到,而 XP 看不到, 要另外安裝字型。不過本查碼程式是用圖片來顯示這些罕用字, 所以不管你有沒有安裝 Extension A/B 的字型,都可以正常的使用查碼功能。 以下是一些查碼的範例 * 在 2588 篇有人問 玄頁 這個字怎麼拆?用查碼程式查 LWTB,在右上方 的 Extension A/B 裡可以看到這個字,點進去之後就可以看到這個字的 拆碼,同時也附上全字庫的連結,連進全字庫就可以知道這個字念 ㄒㄩㄢˋ。 * 如果有裝 Extension A/B 的字型,也可以用"複製貼上"的方法來查碼 * 在 2705 篇有人問 金音 這個字怎麼拆?用查碼程式查 ALD ...... 沒有這個字!去全字庫查詢之後找到這個字的 網頁,發現這個字只有 CNS 和 EUC 的編碼, CNS: 11-4D6F 戶政EUC: 8EABCDEF 而沒有 Unicode 的編碼,所以這個字即使在 Vista 上也看不到, 當然更打不出來。 * 在 2859 篇有人問 奇 上面加草字頭要怎麼拆。這個字更慘,連全字庫上 都沒有登錄。 * 查碼程式也可以使用萬用字元 * 和 ?,所以也可以查 a?b 或 cb*d 之類 的碼。 * 如果只知道 CNS 編碼,也可以用此編碼來查字,例如 3-216F 或 11-212B。 * 如果只知道 Unicode 編碼,也可以用此編碼來查字,例如 U+7C21 或 u+5229。 以下是一些可能會遇到的問題: 1. 問:這些字的嘸蝦米碼確定都對嗎? 答:不確定!其實應該做這個編碼的是行易公司,而行易也的確做了一個 查怪字程式,只是這個查怪字程式的資料沒有公開,也沒有編入 第 10 和 11 字面的字,所以我們才以個人的力量來完成 Extension A/B 的編碼。 2. 問:編碼的時候是只有編入基本字根,還是連簡速字根都有加入? 答:原則上是以基本字根為主,另外儘量加入簡速字根以及大量的容錯拆法。 3. 問:很多字的編碼怪怪的,比如說 http://liu.twbbs.org/-DMTC ,應該是拆成 CNC 就好,為什麼還有 CDC 或 CNCL 的拆法? 答:如上所述,我們在編碼的時候會儘量納入容錯拆法。在行易公司的查怪字 程式裡,所有的「色」都有 NC 和 DC 兩種拆碼,所以我們碰到這類的字形 都會「儘量」加入 D 和 N 兩種拆法。至於 巴 也是一樣,我們會儘量加入 C 和 CL 兩種拆法,即使我們明知 巴 本身就是一個字根 C。 4. 問:可是還是有很多奇怪的編碼,比如說 http://liu.twbbs.org/-DKjI 怎麼會拆成 ZLOH?應該是 ZYPH 吧!中間那個字形明明比 厂 多了一筆! 答:在嘸蝦米剛開始發展的時候,還沒有 Extension A/B 這種東西, 甚至沒有 Unicode,所以一開始的字根設計在現在來看就有不少的落差。 以這個字形來說,從查怪字程式裡可以看出劉先生把這樣的字形都編成 L, 所以我們也把這個字形訂成 L。 實際上還有很多類似的例子,不少罕用字長得很奇怪,單用標準字根是 拆不出來的,所以行易公司在查怪字程式裡加入了大量的容錯拆法和 「類比字根」!碰到這一類的字得多用一點「想像力」,多試幾種可能的 拆法才比較有機會拆出來,重點不在於某一個拆碼是不是完全符合標準 字根,而在於嘸蝦米使用者是否能夠很有效率的檢索到這個字。 5. 問:如果真的對某個字的拆碼很不滿意,可以要求修改嗎? 答:當然可以,請在該頁面的下方留下你的心得,講講你認為要怎麼拆比較好, 大家可以一起討論要怎麼改。 6. 問:如果查不到字該怎麼辦? 答:先試著用不同的拆法試試,如果還是不行的話,到 全字庫網站 去搜尋。 實際上全字庫網站裡還有一兩萬個非常罕用的字是 Unicode 裡沒有的, 這些字沒辦法顯示在電腦上,也沒有辦法打出來。 7. 問:Extension A/B 的字型要去那裡抓? 答:我自己是安裝微軟的「新細明體套件」,這個套件在微軟的網站上已經 抓不到了,不過去網路上搜尋一下,還有很多地方可以下載,比如說 chweng大的網站 http://blog.chweng.idv.tw/archives/221 。 但是請特別注意,有很多人說新細明體套件的字比較醜,比如說 ChrisTorng 的這篇文章 http://groups.msn.com/ChrisTorng/newsannouncement.msnw? action=get_message&mview=0&ID_Message=4947 (因為童大不愛用短網址,所以上面兩行請自行接起來) 用了之後如果不滿意,請參考 http://blog.yam.com/yoren/article/4997866 來移除。當然,除了 新細明體套件,還有很多字型可以用,就麻煩各位自行搜尋了。 8. 問:Extension A/B 的加字加詞檔要去那裡抓? 答:http://liu.twbbs.org/liuzmd1/liu.box/ 。請注意一件事, 為了避免 Extension A/B 的字和原本參考檔的字衝突,我的設計是 拆碼的後面都要加一個分號 ; ,也就是說要輸入這些 Extension A/B 的字,要使用像「RORF;」這樣的拆碼而不是「RORF」 9. 問:要怎麼使用加字加詞檔? 答:請將此加字加詞檔與偽蝦的主程式放在同一個目錄,並且確定在偽蝦 裡已經啟用了加字加詞的功能。 10. 問:使用了這個加字加詞檔之後,偽蝦啟動的速度變得很慢,這是 怎麼回事? 答:本加字加詞檔非常大,有可能使偽蝦啟動及更新加字加詞檔的速度 變慢,實測的結果有可能會造成偽蝦需要35秒才能啟動,所以請 自行評估是否真的要載入這麼大的檔案。我們的建議是挑選某些 會用到的罕用字,再自行放入自己的加字加詞檔。 本次編碼是由批踢踢上的 Ciwx, Linpien, Solaris10 合力完成, 而 CNS11643 的資料則是來自於 行政院主計處電子處理資料中心及中文數位化技術推廣基金會 的 全字庫網站。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.134.104.183 ※ 編輯: solaris10 來自: 220.134.104.183 (09/03 13:33)
ciwx:頭推! 09/03 13:34
tingyang:胸推 09/03 13:58
TWCHIEN:頸推 09/03 13:59
linpien:含淚推... 09/03 14:09
evilmask:不推不行的大作完成了,感謝幾位的辛苦 09/03 14:53
hatebus:推 09/03 16:29
pipw:太感謝了,正問完沒多久而已。 09/03 17:26
rurihome:重要的里程碑呀 必推 09/04 00:07
ChrisTorng:建議除圖片外還要加上以文字顯示,因會需要複製該字 09/04 09:38
zfs:推!Great! 09/04 11:16
solaris10:給童大,已經加上去了 09/04 22:05