推 krusnoopy: 要搭配training time一起下去看 他意思是batch 10 03/25 13:27
→ krusnoopy: 只要train 很少的時間 就可以達到跟SGD差不多的acc. 03/25 13:27
→ krusnoopy: 後面因為size變大 矩陣的運算較久 就不能花很少的時間 03/25 13:28
→ krusnoopy: 就達到跟SGD差不多的效果 03/25 13:28
→ krusnoopy: 總結來說 batch size變大 你train很久的話 acc.還是 03/25 13:29
→ krusnoopy: 可以達到一定水準 不是只單純說batch變大 準確率變低 03/25 13:29
推 krusnoopy: 前面為什麼batch 10比SGD好的原因是: 如果算10個點的 03/25 13:37
→ krusnoopy: gradient跟算1個點的gradient差不多快 那10一定比1好 03/25 13:37
→ empireisme: 瞭解! 03/25 16:49
推 OnePiecePR: 推 K 大 03/26 13:45