作者brendonfish (fish)
看板Cognitive
標題Re: [討論] 數學,語言與腦
時間Fri Feb 5 14:57:02 2010
※ 引述《jokker (微雨從東來)》之銘言:
: ※ 引述《Wengboyu ( )》之銘言:
: : 不知道有沒有相關的研究,但是
: : 所有的文字都是抽象的,沒有一個文字是具體的
: : 中文跟現在其他的語言雷同,不具有象形功能
: : 中文的使用者並沒有比英文使用者使用更多的視覺區
: : 你舉的那個例子"馬皇" 就跟英文的Impossible(I'm possible)一樣
: : 沒有比較特殊。
: : 大部分的字型已經看不出原型,研究上也沒有發現在看這些字的時候
: : 會動用到較多的視覺區
: 再饒舌一下
: 我覺得這邊推論有點不太理解
: 如果中文跟英文的辨識, 對人腦來說, 沒有特殊的地方
: 為什麼對電腦來說, 兩種是很不相同的??
: 舉例來說, 每個中文字的像素都比較多
: 解晰完像素, 之後就要去查表, 找出字元來, 這邊也要佔用很多運算時間
: 找到中文的unicode之後, 這邊還要自己稍微校正一下, 找出正確的字
: 但是英文的辨識率, 正確度就很高, 比中文高很多
: 把電腦當成很笨的單細胞生物好了, 它在處理中文字的效率上明顯差很多
: 而且很大的資源是花在辨識字上面
: 也就是視覺處理上頭
: 比照外國人學中文來說, 他們也是認漢字效率差很多
: 如果不必花比較多的視覺處理, 經過一段時間的學習
: 他們認英文字的速度, 應該跟中文很接近
: 人腦是用什麼技巧, 才可以讓辨識英文跟中文是差不多的呢?
資訊科學上常希望用一套演算法,就區辨出所有的文字,
一般的原理,是分析比較文字與範本文字的相似度,然後選出最相似的字,
不同的演算法會根據文字的像素資訊,設計不同推算相似的的方法。
人腦不太一樣的地方,在於它常會交叉採用許多策略,
舉例來說,文字辨識器常傻傻分不清"間"、"問",
而人看到這兩個字時,通常不會只看外型,還會細看門裡是"口"還是"日",
考量這點,實務上,很多分類器也會採用不只一個方法了,
印象中現在印刷體、不考慮罕見字的話,
辨識率已經遠超過 95% ,
書寫體應該中英文都還不好辨認。
人還有另一個策略,就是能靠前後文的語意推算字,
因此,就算一段話的某個字 見了,你還是有機會猜出來。
這部分電腦還要多跟人類學。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 99.56.240.249
※ 編輯: brendonfish 來自: 99.56.240.249 (02/05 15:54)
→ hermitwhite:我想英文以字母為單位作為辨識中心也是比較容易辨識的 02/07 13:39
→ hermitwhite:原因之一;相較之下中文的辨識比較難採用這種切割開來 02/07 13:40
→ hermitwhite:的策略(因為我們的中文編碼系統中不包含字根),一次 02/07 13:41
→ hermitwhite:要辨識整個字的難度就大為提高了。 02/07 13:42
→ brendonfish:嗯!我看過某些中文辨識系統採用先斷字再辨認的策略, 02/07 15:49
→ brendonfish:而在斷字的時候就錯了。 02/07 15:50