作者kkksilence (期待改變....)
看板HOT_Game
標題Re: [討論] 有人在研究辨識認證圖嘛??
時間Wed Jun 27 04:55:43 2007
我有試著去做過這件事情 整個失敗所以就沒PO版了 Orz
才疏學淺 提供點心得
1.直接做connect-component拆字 失敗
原因:卡在圖中有很多橫直線(灰階值跟字相同)會破壞整體編號
2.使用k-means來抓字 失敗
被線條還有背景搞爛
3.比對樣板 失敗
字體歪斜扭曲太難判斷 外加前面圈字沒圈好的話很慘
4.想辦法破解圖的編號與圖之間的關係 當然是失敗
其中最神奇的是"直接複製圖的網址開啟 是開不出東西的"
可以判斷應為以下兩種情況
a.他每一張圖只出現一次 是用程式(猜測就是asp)產生的
b.後面的碼可能跟使用者編號有關係 同樣的圖不同使用者
會跑出不同編號
我不知道這種不能重複開圖的情況是這幾天才有的
還是當初dannyst大提供資料庫時就有 太晚動工了資訊很少
至於dilation跟erosion就算了吧 冏 連基本的圈字都圈不到了...
這種補強的動作我看還是....
另外要做自動辨識的話 除非機率到達100% 不然只是造成其他負擔
50%辨識的成果一定是不夠用的
目前還沒試過採HSI來分割跟用高斯轉成frequency domain求邊界的方式
說不定有搞頭(爆)
另外比對的話有很多方式 要算偏移量跟歪斜量也不難
不過時間方面...就算成功比對了時間也比不上強者打字班們
這是我目前的小結論
※ 引述《sky777 (...)》之銘言:
: 不知道有沒有人在研究
: 雖然很難達到高辨識率
: 但如果有個50%應該也多少有加速效果吧
: 昨天趁BZ時我有試過一些簡單方法處理圖片
: 隨便取幾張各版友貼的圖
: 想說看可不可以去背景抓文字
: 目前看來會遇到那種字跟背景的灰階值很接近所以會被濾掉
: 其他的倒是還可以分離出來..
: 這裡有圖 http://0rz.tw/6b2Oa
: 有些圖真的很ooxx...
: 第五跟第七圖少字母就是因為上面講的字跟背景再轉成灰階後幾乎差不多被濾掉了
: 有些字體殘缺是因為我有做侵蝕膨脹的原因 這也是還需要改進的地方
: 不知有沒人在研究這方面的咧
: 我的想法是字跟背景分離後再切割成一個字母一個字母出來
: (如果字母分開的話其實很好切 如果黏在一起的話就比較麻煩了)
: 然後再來就是最難的辨識了
: 有字母圖要怎麼辨識就是難題了
: 當初想說收集認證圖字母當樣板去比對
: 但是發現樣板比對"很花時間"..而且伊安又搞個歪七扭八字體更難比
: 板上應該不乏這類強人
: 不知有啥方法大家討論討論嚕
: 大家game7加油嚕.....
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.64.148.37
→ pdaer:這個破解可不可以發表論文? 06/27 04:57
推 sky777:HSI我試過..成果不彰...囧 06/27 04:57
→ kkksilence:回一樓 如果破的了 再台灣一定可以 國外我不知道 XD 06/27 04:57
推 rach:推強者 06/27 04:57
推 morke:辛苦了 06/27 04:58
→ sky777:當初做侵蝕膨脹就是為了消除中間的橫條文雜訊 06/27 04:58
推 pdaer:用高斯轉成frequency domain求邊界的方式這個方式感覺比較OK 06/27 04:59
→ sky777:還有我有加上亮度對比調整也是為了盡量突顯字體除條文 06/27 04:59
→ kkksilence:侵蝕不能放在一開始做的啦...XD 太細的字會不見 06/27 05:00
→ sky777:但是還是不太好..frequency domain是可以試看看 06/27 05:00
→ sky777:我的步驟 灰階->亮度對比調整->二值->侵蝕->膨脹 06/27 05:01
→ kkksilence:試試先用高斯抓邊界+medium filter平滑看看... 06/27 05:05
→ kkksilence:他的圖很明顯雜訊過多 XD 06/27 05:06