推 yoyololicon: 微分後的差別吧,L2會有w,L1只剩正負號 04/05 16:03
→ AmibaGelos: L2指數衰減,w不會歸0.L1則是定量減少,斜率不夠就會歸0 04/05 17:50
推 sean50301: relularization的強度 l1 norm比較強 04/05 20:02
推 KSWang: 宏毅的ML有解釋 今天剛好聽到 數學式上解釋得很清楚 04/05 23:24
推 bawd968: 請問樓上是哪一部影片謝謝 04/06 03:42
推 yoyololicon: 樓上的圖有印象 04/06 16:00
→ kevin1ptt: 圖畫得有點醜哈哈,不過 norm regularization term 04/06 16:00
→ kevin1ptt: 可以對應到一個等價的 norm-constrained problem 04/06 16:01
→ kevin1ptt: 大概是 min_x f(x) + ||x||_p^p, p = 1 or 2 可以轉成 04/06 16:03
→ kevin1ptt: min_x f(x), subject to ||x||_p <= C 04/06 16:04
→ kevin1ptt: 樓上上的忘了加權重了QQ,不過樓上的C會根據權重決定 04/06 16:04
→ kevin1ptt: 然後回到那兩張圖XD 灰色是f的等高線,x = [x1, x2]^T 04/06 16:05
→ kevin1ptt: 然後灰色中間是minimum(這樣畫是假設f是棒棒convex) 04/06 16:06
→ kevin1ptt: 可以看出/想像在多數convex f的情況下,當我們從最小點 04/06 16:09
→ kevin1ptt: 一圈圈往外面走、直到和norm ball相切,就是找到答案了 04/06 16:10
→ kevin1ptt: 然後L2 ball因為是圓圓胖胖的,所以在任何點都一樣容易 04/06 16:11
→ kevin1ptt: 被圈圈碰到;但L1 ball是方方尖尖的,所以圈圈很容易 04/06 16:12
→ kevin1ptt: 是切在頂點,就會造成稀疏的x啦~ 04/06 16:13
→ kevin1ptt: 不過這個太直觀了,而且實際上也不一定會真的轉換問題 04/06 16:14
→ kevin1ptt: 實際上有些L1-reg.問題的解法是「刻意」弄出0的 04/06 16:15
→ kevin1ptt: 比如說OWLQN會在一個維度想要變號的時候不讓他變號, 04/06 16:17
→ kevin1ptt: 就讓他撞到0的牆,如果下一步gradient夠大才讓他變過去 04/06 16:18
→ kevin1ptt: 這樣可以讓很多gradient很小的維度都被「困在」0, 04/06 16:23
→ kevin1ptt: 最後的x就會一堆0 耶~(又亂畫圖XD) 04/06 16:24
推 KSWang: 那個圖片可以在軒田基石看 我之前說的在第16堂影片 04/06 20:57
→ KSWang: Youtube上的就有了 04/06 20:58