看板 Math 關於我們 聯絡資訊
在gradient descent 的基本理論裡面 給定初始值 (eg: x=0) 的cost function J(x) (先簡化成單一變數) 經由 x_k+1= x_k - α*dJ(x)/dx // α:learning factor 可以逼近出來 x= x* (收斂點) 所以這個 dJ(x_k)/dx 變成保證能最快收斂的factor 但是我如何證明,不是其他函數(e.g. dJ(x_k)/dx + h(x) ) ? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.74.122.97 ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1508143828.A.1C0.html
LiamIssac : 唯一性 10/16 16:54
doom8199 : gradient descent 沒有保證"最快"收斂阿 10/16 21:07
alan23273850: 樓上突破盲點 不知道原PO是不是也正在修ML 我剛好是 10/16 21:42
as7218 : 其實感覺原po是要問別的問題只是條件問題沒說清楚 10/16 22:18
as7218 : gradient只有保證在這個點的方向增加最快而已 10/16 22:25
deflife : 只有local最快 跟斜率有點像 把alpha看成變數 10/17 15:56
這局部最快的原因有什麼定理名稱嗎? 我知道很簡單,大概是分析的初階內容,但是我現在想看一下,當作查用的. ※ 編輯: WalterbyJeff (203.74.122.97), 10/17/2017 17:27:11
as7218 : 應該沒有什麼定理在講這件事 10/17 22:50
as7218 : 為什麼 local 最快的原因,和負的gradient指向的方 10/17 22:51
as7218 : 向是 f(x) 高度降低最快的方向是一樣的 10/17 22:52
as7218 : 而因為在所有方向導數的方向中,gradient下降最快 10/17 22:54
as7218 : locally 往其他方向都不會是最好的選擇 10/17 22:55
as7218 : 從這邊也看得出gradient method的一些確定 10/17 22:57
as7218 : 有可能被函數的圖形影響而繞遠路、α 太小的話走一 10/17 22:59
as7218 : 半就會停在local minimum...等問題。 10/17 23:00
as7218 : *一些缺點 10/17 23:00
as7218 : 所以你如果整體來看,如果是要收斂到你要的點 10/17 23:03
as7218 : gradient method不一定會是收斂最快的, 10/17 23:03
as7218 : 甚至會不會收斂也沒有保證 收斂了也不一定是你要的 10/17 23:04
WalterbyJeff: thanks, appreciate your explanation!:D 10/18 18:03