看板 DataScience 關於我們 聯絡資訊
※ 引述《peter308 (pete)》之銘言: : L1L2是一種常見的正規化技巧 : 用來降低過度擬和效應的程度 : 我最近發現其背後有非常深刻的物理意義 : 首先 我們通常都會定義一個loss function 並加上L1 L2項 : https://i.imgur.com/5OUdn1e.png
: 如果學過古典力學的同學 應該都知道有個Euler-Lagrange eq : 而 λ1、λ2 分別對應Euler-Lagrange eq中的兩個不同Lagrangian Multipliers : 後面的加總項則稱為L^1 、L^2 norm : L^1 L^2 norm可以看成是兩個個別的邊界條件 : 所以前面那項loss function 可以看成是 δS 或是最小作用量 (least Action ) : S就是Action 通常會是Lagrangian L 的一個路徑積分 S:=∫Ldt t:= time : 因為很多我們感興趣的系統都是很複雜的 : 所以我們根本無從得知其Action或是Lagrangian的實際數學表示式, : 也就無法對其做變分來了解其動力學了。 : 所以只能用類神經網路模型或是其他的機器學習模型在數值上做逼近 : 但我覺得整個(minimize loss Function+L1L2)精神 : 和Euler-Lagrange variation Eq 是等價的 : L1 L2-norm 其實也可以推廣到 L^p norm (P=0~Inf) : L^p norm 的 L其實就是 Lebesgue (一個數學家的人名) : 某個L^P 就定義出一個metric space (可以用來量測數據點之間的距離) : L^2 就是歐式空間距離 : L^1 則叫做 Manhattan norm : 所以各位可以把L1L2正規化看成是 : 引入兩個L^1 metric space和 L^2 metric space邊條件 : 加在原本loss function上的一種變分的數值方法 : 不過話說回來 : 怎麼知道數據點一定是在 L^1 space或是 L^2 space上呢? : 它不能再其他的 L^p space上嗎?? : 簡單說 : 為啥邊條件只假設設定在 L^1 space 或是 L^2 space上? 想深入探討的話可以參考這本書"Statistical Learning with Sparsity" 這本書是由lasso的開發者之一,R glmnet package的作者寫的, 可以google到,而且免費。 書中的圖2.2即就是用Lagrangian 形式說明lasso(L1 norm)和ridge(L2 norm)背後的意義 圖2.6有提到,邊界條件可以有其他形式,他也說明lasso很特別, 因為lasso接近best subset selection 。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 68.181.115.215 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1548959275.A.632.html
peter308: 推推!! 謝謝分享這本書 02/01 10:25