看板 DataScience 關於我們 聯絡資訊
問題類別:CNN 想請問一下convolution層之間加activation function的意義是什麼? 我不太清楚 如果兩個convolution之間沒有activation function不也可以運作嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.148.239 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1524305591.A.0A5.html
seasa2016: 這個概念似乎是從神經科學來的? 04/21 18:38
seasa2016: 沒有activation function 那跟連續的矩陣乘法差在哪呢 04/21 18:40
seasa2016: ? 04/21 18:40
seasa2016: 或許是提供了非線性的概念吧 04/21 18:40
goldflower: 這題目蠻有趣的耶 雖然conv間是線性 04/21 18:51
goldflower: 但是max-pooling就提供了non-linear 我能想像的就是 04/21 18:52
goldflower: 在cnn的概念上我們每一層都還是某種抽象程度的圖像 04/21 18:53
goldflower: 所以我們讓每個"pixel"都還是>=0才有物理意義 04/21 18:53
goldflower: 不知道有沒有高手有更理論上的解釋? 04/21 18:53
goldflower: https://www.youtube.com/watch?v=KKT2VkTdFyc 04/21 19:03
goldflower: 以李弘毅這則影片的角度來看 似乎max在擬合函數的 04/21 19:04
goldflower: 能力應該是弱於relu的 04/21 19:04
lunashining: 先去看logistic regression.... 04/21 20:19
yoyololicon: 同樓上,非線性是很重要的基本概念... 04/21 23:08
yoyololicon: 真實世界的模型幾乎不會有線性的 04/21 23:09
johnny8376: 1樓是對的。把NN想成一連串的合成函數,也就是線性函 04/22 06:12
johnny8376: 數->激活函數->線性函數->激活函數->...如果激活函數 04/22 06:12
johnny8376: 都是線性,那NN擬合出來就是線性的。 04/22 06:12
Kazimir: https://arxiv.org/pdf/1606.02228.pdf 這裡有一篇比較 04/22 07:02
Kazimir: 各種結構的review 線性比非線性網路低了7%準確度 04/22 07:03
goldflower: 沒人能回答我問題嗎QQ 04/22 11:54
Mchord: deep learning是universal function approximator 04/22 14:22
Mchord: 物理意義都是硬解釋出來的比較多,倒回去找你覺得有意義的 04/22 14:22
Mchord: 出來解釋當然沒問題,但我覺得還是不要過度解釋比較好 04/22 14:25
Mchord: 建議參考DeepMind的https://arxiv.org/abs/1803.06959 04/22 14:29
Kazimir: 我把影片看完了 可是沒看到有提到mp提供非線性的證據啊? 04/22 14:54
Kazimir: 而且每一層的feature map的確pca降維以後還是會有原來的 04/22 14:56
Kazimir: 空間關係 04/22 14:56
TOEFLiBT100: max out是非線性阿,ReLu就是maxout的一個特利 04/22 16:38
TOEFLiBT100: *特例 04/22 16:39
Kazimir: 我沒有看過goodfellow那篇,不過裡面有一段話 04/22 17:09
Kazimir: https://goo.gl/QG3W12(太長貼不下,下面那個回答) 04/22 17:10
Kazimir: mp+relu 約等於 = maxout 這樣看來mp不見得有非線性吧? 04/22 17:13
Mchord: 線性是有定義的,max pooling不滿足f(x+y)=f(x)+f(y)吧 04/22 18:44
goldflower: 我指依照那種證明方式 我覺得maxpooling並沒辦法提共 04/22 19:23
goldflower: 高於relu的擬合度 04/22 19:23
goldflower: 我也是覺得物理意義都是硬套居多 所以希望有更數學上 04/22 19:27
goldflower: 推bound的方式 04/22 19:27
goldflower: 我貼的那個影片完全沒有要說明maxpooling是不是線性 04/22 19:35
goldflower: 我想你找個例子代定義就會知道他不是線性 04/22 19:35
goldflower: M大那個晚點來看看@@ 04/22 19:40
Kazimir: 我那個時候疑惑的地方是當然max(x1,x2)是非線性 04/22 22:37
Kazimir: 可是mp是在不同dim上 要怎麼套定義上去比較疑惑 04/22 22:38
goldflower: 你先假設1x1 kernel 04/24 13:12
goldflower: 這樣不同層的運算就相當於對不同scale去做pooling 04/24 13:12
goldflower: 那應該就能直接套定義了吧 04/24 13:13
goldflower: 不過我是覺得直接算就非線性 不同層直接loss掉資訊 04/24 13:13
goldflower: 很直覺的就更非線性了 04/24 13:13
Mchord: max([1,-1]) + max([-1,1]) != max([1+(-1),-1+(1)]) 04/24 20:00
windg: max pooling 雖是非線性的沒錯 但他不足以滿足增加整個模 06/03 05:27
windg: 型的非線性程度 他基本上是在每層之間放棄一些數字,可以 06/03 05:27
windg: 想像是種非線性的down sampling. 他並沒有真的幫模型增加 06/03 05:27
windg: 非線性程度 06/03 05:27