看板 DataScience 關於我們 聯絡資訊
https://imgur.com/ZNJfGFm 最近在看 台大美女老師的TY頻道 看到的這張圖 覺得產生了以下疑惑 請問accuracy會隨mini batch 下降後又上升是甚麼原理 有任何理論闡述了為何會下降後又上升嗎 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.91.75.186 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1585110434.A.A8E.html ※ 編輯: empireisme (219.91.75.186 臺灣), 03/25/2020 12:29:50
krusnoopy: 要搭配training time一起下去看 他意思是batch 10 03/25 13:27
krusnoopy: 只要train 很少的時間 就可以達到跟SGD差不多的acc. 03/25 13:27
krusnoopy: 後面因為size變大 矩陣的運算較久 就不能花很少的時間 03/25 13:28
krusnoopy: 就達到跟SGD差不多的效果 03/25 13:28
krusnoopy: 總結來說 batch size變大 你train很久的話 acc.還是 03/25 13:29
krusnoopy: 可以達到一定水準 不是只單純說batch變大 準確率變低 03/25 13:29
krusnoopy: 前面為什麼batch 10比SGD好的原因是: 如果算10個點的 03/25 13:37
krusnoopy: gradient跟算1個點的gradient差不多快 那10一定比1好 03/25 13:37
empireisme: 瞭解! 03/25 16:49
OnePiecePR: 推 K 大 03/26 13:45