[問題]mini batch 和 SGD的一些問題

作者empireisme (empireisme)

看板DataScience

標題[問題]mini batch 和 SGD的一些問題

時間Wed Mar 25 12:27:11 2020

https://imgur.com/ZNJfGFm 最近在看台大美女老師的TY頻道看到的這張圖覺得產生了以下疑惑請問accuracy會隨mini batch 下降後又上升是甚麼原理有任何理論闡述了為何會下降後又上升嗎 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.91.75.186 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1585110434.A.A8E.html ※ 編輯: empireisme (219.91.75.186 臺灣), 03/25/2020 12:29:50

推 krusnoopy: 要搭配training time一起下去看他意思是batch 10 03/25 13:27

→ krusnoopy: 只要train 很少的時間就可以達到跟SGD差不多的acc. 03/25 13:27

→ krusnoopy: 後面因為size變大矩陣的運算較久就不能花很少的時間 03/25 13:28

→ krusnoopy: 就達到跟SGD差不多的效果 03/25 13:28

→ krusnoopy: 總結來說 batch size變大你train很久的話 acc.還是 03/25 13:29

→ krusnoopy: 可以達到一定水準不是只單純說batch變大準確率變低 03/25 13:29

推 krusnoopy: 前面為什麼batch 10比SGD好的原因是: 如果算10個點的 03/25 13:37

→ krusnoopy: gradient跟算1個點的gradient差不多快那10一定比1好 03/25 13:37

→ empireisme: 瞭解! 03/25 16:49

推 OnePiecePR: 推 K 大 03/26 13:45