[分析] gradient descent

作者WalterbyJeff (Be the field)

看板Math

標題[分析] gradient descent

時間Mon Oct 16 16:50:25 2017

在gradient descent 的基本理論裡面給定初始值 (eg: x=0) 的cost function J(x) (先簡化成單一變數) 經由 x_k+1= x_k - α*dJ(x)/dx // α:learning factor 可以逼近出來 x= x* (收斂點) 所以這個 dJ(x_k)/dx 變成保證能最快收斂的factor 但是我如何證明,不是其他函數(e.g. dJ(x_k)/dx + h(x) ) ？ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.74.122.97 ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1508143828.A.1C0.html

→ LiamIssac : 唯一性 10/16 16:54

→ doom8199 : gradient descent 沒有保證"最快"收斂阿 10/16 21:07

推 alan23273850: 樓上突破盲點不知道原PO是不是也正在修ML 我剛好是 10/16 21:42

→ as7218 : 其實感覺原po是要問別的問題只是條件問題沒說清楚 10/16 22:18

→ as7218 : gradient只有保證在這個點的方向增加最快而已 10/16 22:25

推 deflife : 只有local最快跟斜率有點像把alpha看成變數 10/17 15:56

這局部最快的原因有什麼定理名稱嗎？我知道很簡單,大概是分析的初階內容,但是我現在想看一下,當作查用的. ※ 編輯: WalterbyJeff (203.74.122.97), 10/17/2017 17:27:11

推 as7218 : 應該沒有什麼定理在講這件事 10/17 22:50

→ as7218 : 為什麼 local 最快的原因，和負的gradient指向的方 10/17 22:51

→ as7218 : 向是 f(x) 高度降低最快的方向是一樣的 10/17 22:52

→ as7218 : 而因為在所有方向導數的方向中，gradient下降最快 10/17 22:54

→ as7218 : locally 往其他方向都不會是最好的選擇 10/17 22:55

→ as7218 : 從這邊也看得出gradient method的一些確定 10/17 22:57

→ as7218 : 有可能被函數的圖形影響而繞遠路、α 太小的話走一 10/17 22:59

→ as7218 : 半就會停在local minimum...等問題。 10/17 23:00

→ as7218 : *一些缺點 10/17 23:00

推 as7218 : 所以你如果整體來看，如果是要收斂到你要的點 10/17 23:03

→ as7218 : gradient method不一定會是收斂最快的， 10/17 23:03

→ as7218 : 甚至會不會收斂也沒有保證收斂了也不一定是你要的 10/17 23:04

→ WalterbyJeff: thanks, appreciate your explanation!:D 10/18 18:03