看板 DataScience 關於我們 聯絡資訊
[關鍵字]: 手寫數字資料集 [出處]: 自己 [重點摘要]: https://github.com/jikker/-2-digit-handwritten-number-data 自己蒐集的手寫數字資料 目前已有13萬張圖片 MNIST的資料太漂亮了,不是真實世界會遇到的資料, (雜訊處理的很好) 用MNIST來跑只是好看而已,辨識度99%,拿來套在真實世界, 有時連70%都達不到,這是我自己蒐集的手寫數字資料, 大概有20個人左右的筆跡,持續增加中,分享給大家使用, 會有一些雜訊,但是我辨識的目標就是很容易有雜訊, 所以乾脆把雜訊也丟進去,讓他自行產生抗體 XD 我目前的模型 辨識度約可達到 92%~95% (訓練完,在這個資料集內隨機取樣辨識) 如果有大大用這些資料跑出更好的辨識度 拜託告訴我 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.87.162.162 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1526613112.A.233.html
hsnuyi: 傳統的DIP就可以處理"雜訊" 這年頭都直接灌進CNN不預處理 05/18 13:11
hsnuyi: 的就是了 05/18 13:11
jikker: 我所謂的"雜訊" 是 手寫文字超出格子 造成下一格會多一筆 05/18 13:46
jikker: https://i.imgur.com/3V0fQx8.png 像這樣 05/18 13:49
jikker: 請問這種的DIP要怎麼處理比較好? 05/18 13:50
followwar: SVHN也很多這種的,就不理他 05/18 19:11
acctouhou: Autoencoder不是可以降噪 那個套下去看看啊 05/18 21:19
abc2090614: 感謝分享 05/19 22:18