看板 Python 關於我們 聯絡資訊
目前有乘客文件可以掃描成PDF檔案,想透過程式將身份字號轉譯成文字檔,該透過什麼方 法呢? 這方面有想過可能要透過智慧學習方式提高辨識度 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 39.9.202.92 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1559758308.A.E46.html ※ 編輯: wii8898333 (39.9.202.92 臺灣), 06/06/2019 02:58:32
CCWck: 找ocr api 06/06 10:19
wii8898333: orc辨識度太低怎麼辦呢 06/06 12:54
Hsins: 找足夠的 dataset 自己 train 一個 06/06 15:09
Hsins: 問題就在於你有沒有足夠的 data 給他 train,還有你會不會 06/06 15:09
Hsins: train… 06/06 15:09
hsnuyi: 除非辨識率100% 不然到時候你還不是要人工比對一次? 身分 06/06 16:51
hsnuyi: 證字號可以錯喔? 06/06 16:51
hsnuyi: 用時新找個工讀抄寫就好 要辨識做啥? 有比較省時便宜又正 06/06 16:55
hsnuyi: 確? 06/06 16:55
hsnuyi: ^時薪 06/06 16:56
wahaha279: 想玩機器學習先叫老闆給資料 不然就是做不到 06/06 17:44
ohcE0: 身分證資料多少算是可以錯的? 畢竟有驗證碼欄位 06/06 20:27
ohcE0: 資料的話 應該已經算是很好自行產生的了 06/06 20:29
vi000246: 手寫還是印刷的字? 06/06 23:06
wii8898333: 印刷 06/07 06:37
king22649: 印刷的 tesseract 就行了 畫值不要太低的話 06/07 07:17
art1: 買個專業的 OCR 軟體來辨識比較實在一些 06/07 16:02
MasterChang: 印刷的用tesseract去串接就好..... 06/08 00:57