看板 Cognitive 關於我們 聯絡資訊
※ 引述《jokker (微雨從東來)》之銘言: : ※ 引述《Wengboyu ( )》之銘言: : : 不知道有沒有相關的研究,但是 : : 所有的文字都是抽象的,沒有一個文字是具體的 : : 中文跟現在其他的語言雷同,不具有象形功能 : : 中文的使用者並沒有比英文使用者使用更多的視覺區 : : 你舉的那個例子"馬皇" 就跟英文的Impossible(I'm possible)一樣 : : 沒有比較特殊。 : : 大部分的字型已經看不出原型,研究上也沒有發現在看這些字的時候 : : 會動用到較多的視覺區 : 再饒舌一下 : 我覺得這邊推論有點不太理解 : 如果中文跟英文的辨識, 對人腦來說, 沒有特殊的地方 : 為什麼對電腦來說, 兩種是很不相同的?? : 舉例來說, 每個中文字的像素都比較多 : 解晰完像素, 之後就要去查表, 找出字元來, 這邊也要佔用很多運算時間 : 找到中文的unicode之後, 這邊還要自己稍微校正一下, 找出正確的字 : 但是英文的辨識率, 正確度就很高, 比中文高很多 : 把電腦當成很笨的單細胞生物好了, 它在處理中文字的效率上明顯差很多 : 而且很大的資源是花在辨識字上面 : 也就是視覺處理上頭 : 比照外國人學中文來說, 他們也是認漢字效率差很多 : 如果不必花比較多的視覺處理, 經過一段時間的學習 : 他們認英文字的速度, 應該跟中文很接近 : 人腦是用什麼技巧, 才可以讓辨識英文跟中文是差不多的呢? 資訊科學上常希望用一套演算法,就區辨出所有的文字, 一般的原理,是分析比較文字與範本文字的相似度,然後選出最相似的字, 不同的演算法會根據文字的像素資訊,設計不同推算相似的的方法。 人腦不太一樣的地方,在於它常會交叉採用許多策略, 舉例來說,文字辨識器常傻傻分不清"間"、"問", 而人看到這兩個字時,通常不會只看外型,還會細看門裡是"口"還是"日", 考量這點,實務上,很多分類器也會採用不只一個方法了, 印象中現在印刷體、不考慮罕見字的話, 辨識率已經遠超過 95% , 書寫體應該中英文都還不好辨認。 人還有另一個策略,就是能靠前後文的語意推算字, 因此,就算一段話的某個字 見了,你還是有機會猜出來。 這部分電腦還要多跟人類學。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 99.56.240.249 ※ 編輯: brendonfish 來自: 99.56.240.249 (02/05 15:54)
hermitwhite:我想英文以字母為單位作為辨識中心也是比較容易辨識的 02/07 13:39
hermitwhite:原因之一;相較之下中文的辨識比較難採用這種切割開來 02/07 13:40
hermitwhite:的策略(因為我們的中文編碼系統中不包含字根),一次 02/07 13:41
hermitwhite:要辨識整個字的難度就大為提高了。 02/07 13:42
brendonfish:嗯!我看過某些中文辨識系統採用先斷字再辨認的策略, 02/07 15:49
brendonfish:而在斷字的時候就錯了。 02/07 15:50