看板 DataScience 關於我們 聯絡資訊
在網路上看了不少文章,但還是無法理解為何L1會具有稀疏的特性?這兩者的具體差別到 底是什麼呢,能用gradient descent 在微分時的差別來解釋嗎? 另外想請問大家是怎麼選正規化的權重alpha的?雖說知道是用trial and error,但數字 範圍這麼廣,有沒有限縮範圍的方法呢? 感謝大家 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 110.50.162.168 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522914287.A.5DE.html
yoyololicon: 微分後的差別吧,L2會有w,L1只剩正負號 04/05 16:03
AmibaGelos: L2指數衰減,w不會歸0.L1則是定量減少,斜率不夠就會歸0 04/05 17:50
sean50301: relularization的強度 l1 norm比較強 04/05 20:02
KSWang: 宏毅的ML有解釋 今天剛好聽到 數學式上解釋得很清楚 04/05 23:24
bawd968: 請問樓上是哪一部影片謝謝 04/06 03:42
kevin1ptt: https://i.imgur.com/B5W1aK6.jpg 04/06 15:57
kevin1ptt: https://i.imgur.com/PSWgTj4.jpg 04/06 15:59
yoyololicon: 樓上的圖有印象 04/06 16:00
kevin1ptt: 圖畫得有點醜哈哈,不過 norm regularization term 04/06 16:00
kevin1ptt: 可以對應到一個等價的 norm-constrained problem 04/06 16:01
kevin1ptt: 大概是 min_x f(x) + ||x||_p^p, p = 1 or 2 可以轉成 04/06 16:03
kevin1ptt: min_x f(x), subject to ||x||_p <= C 04/06 16:04
kevin1ptt: 樓上上的忘了加權重了QQ,不過樓上的C會根據權重決定 04/06 16:04
kevin1ptt: 然後回到那兩張圖XD 灰色是f的等高線,x = [x1, x2]^T 04/06 16:05
kevin1ptt: 然後灰色中間是minimum(這樣畫是假設f是棒棒convex) 04/06 16:06
kevin1ptt: 可以看出/想像在多數convex f的情況下,當我們從最小點 04/06 16:09
kevin1ptt: 一圈圈往外面走、直到和norm ball相切,就是找到答案了 04/06 16:10
kevin1ptt: 然後L2 ball因為是圓圓胖胖的,所以在任何點都一樣容易 04/06 16:11
kevin1ptt: 被圈圈碰到;但L1 ball是方方尖尖的,所以圈圈很容易 04/06 16:12
kevin1ptt: 是切在頂點,就會造成稀疏的x啦~ 04/06 16:13
kevin1ptt: 不過這個太直觀了,而且實際上也不一定會真的轉換問題 04/06 16:14
kevin1ptt: 實際上有些L1-reg.問題的解法是「刻意」弄出0的 04/06 16:15
kevin1ptt: 比如說OWLQN會在一個維度想要變號的時候不讓他變號, 04/06 16:17
kevin1ptt: 就讓他撞到0的牆,如果下一步gradient夠大才讓他變過去 04/06 16:18
kevin1ptt: https://i.imgur.com/uqPv5lw.jpg 04/06 16:22
kevin1ptt: 這樣可以讓很多gradient很小的維度都被「困在」0, 04/06 16:23
kevin1ptt: 最後的x就會一堆0 耶~(又亂畫圖XD) 04/06 16:24
KSWang: 那個圖片可以在軒田基石看 我之前說的在第16堂影片 04/06 20:57
KSWang: Youtube上的就有了 04/06 20:58