作者danny0838 (道可道非常道)
看板ChineseMed
標題Re: [情報] 線上笈成資料庫
時間Tue May 29 21:42:11 2012
※ 引述《gentlwind (ㄉㄊ)》之銘言:
: 電子檔來源,以往我是採用CCMP版本,應該也是東湊西湊出來的,需要校對。
: 訓詁學的部分,實在很耗神,個人認為不宜一開始就當作重點工作。
: 蔥葱之別的問題,其實是異體字,我以前是參考教育部的異體字典網路版做取代。
: 造字(不管用外碼還是畫圖),檢索的問題也許可以用拆字的方式處理。
: 例如堃拆成方方土 [原來PTT有支援UNICODE喔...為什麼國泰不行]
: 要搜尋的時候打方方土
: 我不懂PHP(每次買書就丟著),組字程式也許可以用 "前置字元+拆字"這種假外碼來儲存
: 這樣就能搜尋了
目前的系統大致上就是這樣做的
http://j.mp/JLOOO6
比如,搜尋像「鼻冘」這樣的組字式,可找到原始碼中的字
http://j.mp/K9px4U
而在實際進入頁面時,這個字會被自動替換成組合好的圖片。
然而,許多字是 Unicode 本來就提供的,此時會直接使用相應的 Unicode 字元。
像「艹牛」「艹膝」二字都是 Unicode 有的字
http://j.mp/Jyn42R
這樣一來,輸入「艹牛艹膝」是找不到這兩個字的,更別說「艸牛艸膝」了。
另外,有些字雖然 Unicode 有,
但新細明體、標楷體沒有它們,內建的輸入法也無法輸入這些字,
直到 Windows 7 才有內建 Unicode Ext A 和 Ext B 的輸入法表格及字體(微軟正黑)。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.45.68.16
※ 編輯: danny0838 來自: 118.168.102.201 (05/29 23:18)
→ gentlwind:你最後一段的資訊我之前都不曉得耶....辛苦你了 05/30 00:20
推 ellisnieh:文字部分,也許寫公文去請全字庫增字也是種方法? 06/01 00:29