[問題] 請教這驗證碼如何解析

作者HenryLiKing (亨利王子)

看板Python

標題[問題] 請教這驗證碼如何解析

時間Tue Sep 5 21:16:07 2017

大家好我最近剛開始在研究爬蟲在登入的時候，看到這樣的驗證碼圖片 http://imgur.com/a/vO5GX 我嘗試過把他轉成 numpy array 後切掉旁邊的邊邊然後用 pytesseract 去讀圖片但是辨識率超級低不知道要如何著手解析這樣驗證碼的文字想請教一下各位前輩這種類型的要如何分析謝謝!! 補: 剛剛沒說到其實我有做過一點點處理大致上是這樣 https://goo.gl/zFPBDg 但是辨識成功率大概是 10~40%左右超級低QQ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.43.71.211 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1504617371.A.CF2.html

推 shadowjohn: 去雜點，去邊框，文字跟四週留些空白，轉成黑白 09/05 21:17

→ shadowjohn: 白底黑字，然後tesseract定白名單，應該差不多了 09/05 21:18

感謝分享! 不知道能不能大致跟我說明一下 "去雜點，去邊框" 要用什麼方法呀?

推 bluecadence: 這種用 tensorflow 寫個三層 CNN 訓練一下就解決了 09/05 22:15

→ bluecadence: 要作到辨識成功率到99%不難 09/05 22:16

我今天已經下載好 TensorFlow 了XD 開始研究要如何辨識不到能不能給我一點研究方向得提示呀? 我沒接觸過DL QQ

推 jack123218: 如果字跟雜點都是固定顏色直接用色碼把雜點濾掉就好了 09/06 10:42

雜點顏色都是不固定的但是好像都是比較淡的顏色!

推 f496328mm: 我也想問一樓說的方法 image 要事前做好多處理阿@@ 09/06 10:59

推 vi000246: 我之前做的筆記http://docdro.id/4cVgmsJ 09/06 11:47

推 f496328mm: 感謝另外tensorflos實戰的網址 404 09/06 13:09

→ vi000246: 網址掛掉就直接google標題吧 09/06 13:45

我看不到網址內容耶請問要找的標題就是 tensorflows實戰嗎? ※ 編輯: HenryLiKing (140.138.155.196), 09/06/2017 15:28:25

→ vi000246: 剛google一下好像找不到了 09/06 15:41

推 bbkingck: 學習圖片的前處理的話,推薦PyImageSearch,也可撿到現成 09/06 16:06

推 f496328mm: 太感謝這裡的大大了，給做image的一個方向，不然根本 09/06 17:26

→ f496328mm: 不知要從何做起，只好一直調vgg 09/06 17:26

→ aa12twtwaa: 不想前置處理的話可以參考這個https://goo.gl/2k74V2 09/06 20:04

→ aa12twtwaa: pip安裝captcha庫然後把扭曲線的那個砍掉字型替換成 09/06 20:05

→ aa12twtwaa: 相近的字體 09/06 20:05

推 vi000246: 我試過自已做訓練集用肉眼辨識5000份就累了 09/07 00:51

→ vi000246: 樓上那方法要自已產驗證碼自已辨識才行 09/07 00:52

推 TitanEric: 學弟安安 09/08 00:31

→ luce: 可以先去看論文，有很多相關的研究。 09/08 02:48

→ TakiDog: 我做過這種幾乎一模一樣的驗證碼直接二值化去雜點 09/08 21:16

→ TakiDog: 不知道為什麼圖片size會影響我就把它放大在平滑 09/08 21:17

→ TakiDog: 然後差不多就能有個8成成功率了 09/08 21:18

→ f496328mm: 想請教怎麼放大啊? 例如 DATA 給 64*64 09/08 21:24

→ f496328mm: 不想太多變數就取樣成 32*32 09/08 21:24

→ f496328mm: 不知道怎麼放大或是放大的概念 09/08 21:25

→ TakiDog: 圖片存下來我是在把它做拉大的動作還有四周加上空白 09/08 22:22

噓 wahaha279: 直就推用 ml 方法的真的母湯 05/02 11:37

→ wahaha279: 生資料花的時間傳統演算法就解決問題了 05/02 11:37

推 wahaha279: 花一天準確度80%的模型vs十天95%的模型 05/02 11:40