Re: [問題] 深度學習(deep learning)出問題

作者pipidog (如果狗狗飛上天)

看板Python

標題Re: [問題] 深度學習(deep learning)出問題

時間Fri Sep 22 02:59:57 2017

本來用推文的,但越推越長,所以簡單回文好了.沒仔細搞懂你的程式碼,但看到幾點問題: 1.正常的情況下,如果你要做的是分類器,你的output應該是softmax, 而不是用sigmoid,這不是正常會採用的輸出層修正.如果要搞懂 softmax,你最好也花點時間搞懂cross entropy.如果你要做的是回歸器,一般會用均方差.(但我不懂為啥你的程式的loss定義的是平均差? 除非正負號對誤差有意義,不然這很少用.你最好確定一下) 2.新版的tensorflow,已經把initialize_all_variabel改成 tf.global_variables_initializer,你的範例有點舊了. 3.一般來說,多層感知器(也就是最簡單的全連結神經網路)我們不會去設定太多層,通常設個一兩層就夠了.如果你覺得結果不好,先試試看把節點加多,而不是把層加厚.這會讓你的模型簡單一些.如果還是不好,我們再試試看增加層數.不要一股腦地就就出很多層的結構.這樣不僅難以分析,也很容易造成過擬合. 4.一個好的機器學習模型,不是不停地增加複雜度,讓問題可以被擬合的越準越好,而是設計出一個模型,用最低程度的複雜度來回答出問題最好.因為真實場景下的資料是不會盡如人意的,過於複雜的模型除了浪費資源外,你也不容易修正模型.所以一看到問題就先給他來個10層,20層不是好事. 5.看的出來你對機器學習還有神經網路不太懂,其實對於初學者,我是不推薦一開始就從tensorflow上手的,我建議你應該先學scikit learn 跟Keras. scikit learn集成了很多機器學習的模型,你會比較了解 "分類,迴歸,聚類(clustering),降維"這機器學習中的四大基本觀念. 然後你再進到神經網路裡面,你會發現神經網路看似複雜,其實也就是換個手段來處理上面這四大類問題而已.本質上差異不大. 6.如果你開始要進到神經網路了,我建議你可以先試著從Keras上手, Keras是基於tensorflow的高階API,他是以模型導向的方式讓你建構神經網路.而且Keras已經被收錄到tensorflow中了,之後應該會從contrib中移到正式的架構內. 從Keras下手可以先幫助你了解模型,再去深究tensorflow的語法. 如果你對機器學習的模型一無所知就想透過學tensorflow來理解機器模型,是很容易吃鱉的,模型一個沒搞懂就先被他複雜的架構給淹沒了(其實我甚至覺得tensorflow根本就是設計來做後端,他本來就不該拿來做前端使用,你有需要每次開車都先從組裝輪子開始?).這就像是你想學開車,你該做的事情是先去上駕訓班,而不是去學汽車組裝.這不是不行,但那是等你有一天把車玩精了,想改車的時候在做的事情. 說了這麼多,還是想講一點,機器學習的本質,核心,是那些一個一個的模型,模型懂了,其實用哪套東西實作反而是次要的了. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.90.201.243 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1506020401.A.D48.html

推 joeyccc1: 原po的code比較像回歸吧？ 09/22 03:08

→ joeyccc1: 他label這樣softmax下去都是1阿 09/22 03:08

※ 編輯: pipidog (73.90.201.243), 09/22/2017 03:54:38

推 st1009: 非常感謝您無私的教學！！m(_ _)m 09/22 11:01

推 st1009: 話說使用softmax真的都是1，就算降低層數也是Q 09/22 14:49

推 vfgce: 呃,沒仔細看code,如果你做的是迴歸那先從linear regression 09/22 15:45

→ vfgce: 下手,先了解什麼是迴歸,什麼是分類..... 09/22 15:47

→ vfgce: 迴歸一般用於輸出為連續資料,分類用於輸出為離散資料... 09/22 15:49

→ vfgce: 另外logistic regression雖然名字是迴歸,但其實在做分類... 09/22 15:50

→ vfgce: 若要玩deep learning,請先花點時間搞懂類神經網路再來... 09/22 15:52

→ vfgce: 冒然越級打怪是很危險的.... 09/22 15:53

→ vfgce: 不是所有資料都可以用deep learning 做... 09/22 15:55

→ st1009: 我做的其實是2元分類，基本上跑出來的數值大於0.5我就視為 09/22 20:23

→ st1009: 1，小於視為0這樣，sigmoid是為了把數值縮在0~1方便判斷 09/22 20:24

→ st1009: 跑我程式，看到藍色的點就是正確的答案~ 09/22 20:26

推 vfgce: 我的天啊,你完全沒概念....,你先弄懂資料怎麼整理... 09/22 20:42

→ vfgce: 二元分類你要事先就處理好,而不是跑出答案來再分... 09/22 20:44

推 vfgce: 你絕對不要再碰tensorflow,乖乖先學scitkit learn.... 09/22 20:47

→ vfgce: 可以的話,看點統計學,先了解什麼名目,順序,等距,等比... 09/22 20:49

推 vfgce: 其實沒有統計學概念的人貿然進入資料科學有點危險.... 09/22 20:58

→ vfgce: 最基本的類別資料和連續數值資料的處理,及混合兩者的處理 09/22 20:59

→ vfgce: 觀念要清楚啊, 很多人隨便就把類別資料當數值資料用. 09/22 21:02

推 vfgce: 例如紅綠藍三色編碼為0,1,2,沒有再整理就直接用,觀念整個錯 09/22 21:06

→ vfgce: 這也是python的一大問題,很多類別資料直接用整數編碼, 09/22 21:07

→ vfgce: 很多人根本想都不想就直接用下去. 09/22 21:08

→ vfgce: R在這方面就好多了,R的類別資料以factor處理,不易和數值 09/22 21:09

→ vfgce: 資料搞混,也讓人比較會注意到要進行轉換.. 09/22 21:10

推 st1009: 其實...我有學過統計阿...我的實驗是參考我學長的正式論文 09/22 21:10

→ st1009: ，只是他的分類是用邏輯回歸，而審查委員希望使用DL，所以 09/22 21:13

→ st1009: 接下來我們就使用DL來進行分類... 09/22 21:14

推 joeyccc1: 其實也沒有那麼誇張啦用0.5判斷那邊比較像是argmax後的 09/22 21:15

→ joeyccc1: prediction 原ＰＯ如果續要的話站內給我信相我可以把改 09/22 21:15

→ joeyccc1: 過的code寄給你 09/22 21:16

→ joeyccc1: *需要 *信箱 09/22 21:16

推 st1009: 基本上如果可以我也希望直接跑出01啦 09/22 21:25

→ st1009: https://goo.gl/F8CeB1 但如這篇文說神經元像邏輯回歸，可 09/22 21:26

→ st1009: 是我看的那篇論文就是在sigmoid後，把0.5以上視為1 09/22 21:27

推 st1009: 如果v大認為我是紅綠藍三色編碼012那樣的話，其實我不是， 09/22 21:32

→ st1009: 我輸入的類別資料是經過TF-IDF及NGD計算轉化過的 09/22 21:33

推 vfgce: loss = tf.reduce_mean(tf.reduce_sum((ys - prediction))) 09/22 22:52

→ vfgce: 這是你執行時的loss function嗎? 09/22 22:52

推 st1009: 是的，我之後應該會改掉，只是還沒確定怎改 09/22 22:53

→ vfgce: #loss = tf.reduce_sum( tf.square( ys - prediction ) ) 09/22 22:53

→ vfgce: 這個你註解的才是對的... 09/22 22:54

→ vfgce: loss function 錯掉,整個走鐘... 09/22 22:55

推 st1009: 嗯，註解是因為範例版是用reduce_mean，但我覺得怪怪的... 09/22 22:55

→ st1009: 所以刪除用用看，但沒看到明顯改善，所以就先註解了 >///< 09/22 22:56

推 st1009: 其實不只是沒有明顯改善...是用了根本無法訓練... 09/22 22:59

推 vfgce: 目前看來應該是loss function問題...你用的顯然不對.. 09/22 23:00

推 st1009: https://pastebin.com/n114yHzZ 09/22 23:03

→ st1009: 這是我現在正在嘗試的程式碼，跑成功時有83%準確率，但... 09/22 23:04

→ st1009: 不知為何常常跑不起來，可能是初始權重問吧... 09/22 23:05

推 vfgce: 再看一下,應該改用對數概似函數當loss function. 09/22 23:05

→ vfgce: 對tensorflow完全不熟,看起來很不習慣... 09/22 23:07

推 st1009: 好的，我會研究的 <3 09/22 23:07

→ st1009: 那...我等等多加一些註解(? 09/22 23:08

→ vfgce: 可以改用keras做嗎?這些細節它會代處理... 09/22 23:09

推 st1009: 我跟組員討論過，可以,但還沒找到範例>"< 09/22 23:13

推 vfgce: 你如果做二元分類的話,最簡單就是hidden用relu,ouput用 09/22 23:15

→ vfgce: softmax,loss 用cross entrophy....你不用自己寫loss的細 09/22 23:16

→ vfgce: 節,很容易出錯... 09/22 23:16

推 st1009: https://pastebin.com/ZDcwta2g 我加了些註解，說明每個 09/22 23:17

→ st1009: 區塊再做甚麼，希望這可以讓您閱讀方便些 09/22 23:17

推 st1009: 嗯，等我研究好keras，應該就會用他了>////< 09/22 23:21

推 vfgce: 我覺得你的問題,在於loss function及activvation function 09/22 23:28

→ vfgce: 的選擇,剛又看了一下,二元分類的話,activation用relu或 09/22 23:30

→ vfgce: sigmoid都可以,但sigmoid易有梯度消失, output用sigmoid, 09/22 23:32

→ vfgce: 超過二元分類再用softmax, loss 用binary crossentropy 09/22 23:33

→ vfgce: 這些在keras都有已寫好,直接套用即可,自己寫容易出錯.. 09/22 23:35

→ vfgce: 但是你得研究一下,activation,loss, optimizer怎麼搭才對 09/22 23:36

推 st1009: 嗯，只要審查委員不要再提奇怪意見，應該不會超過2元分類 09/22 23:37

→ vfgce: 弄錯的話,結果就會有問題... 09/22 23:37

→ st1009: ，因為目前實驗只需要做是否的判斷 09/22 23:37

→ st1009: P.S我已經載好keras了 -////- 09/22 23:38

→ vfgce: 可以看一下keras文檔,應該比tensorflow好懂多了... 09/22 23:39

→ st1009: https://keras-cn.readthedocs.io/en/latest/#keras 09/22 23:39

→ st1009: 目前正在讀這個>////< 09/22 23:39

→ vfgce: 你的問題應該用sklearn的MLPClassifier處理就好了... 09/22 23:41

推 st1009: 嗯阿...我剛載好keras...用過有問題再研究sklearn好了>"< 09/22 23:43

推 vfgce: 審查委員為何建議deep learning? 09/22 23:51

→ vfgce: 資料不夠多也無法顯出deep learning的優勢... 09/22 23:51

推 st1009: 具體我跟教授都不知道，可能是因為我們的數據會慢慢長大吧 09/22 23:54

→ st1009: 那個評審委員很奇怪...只要我教授投一次論文，就算跟本實 09/22 23:54

→ st1009: 驗無關的論文，他都會特別提到這篇，說要做DL... 09/22 23:55

→ st1009: 甚至他還說我們廣而不精，所以...我教授就派我和組員來做 09/22 23:56

→ st1009: DL了... 09/22 23:56

推 vfgce: 唉,了解....... 09/22 23:56

推 st1009: 每天成長10~80比數據左右，如果改架構，可能一天提升上千 09/22 23:58

→ st1009: 到上萬筆數據，不過等熟了才會做大 09/22 23:58

→ vfgce: DL又不是萬靈丹,很多時候也沒比傳統SVM,RF,MLP好... 09/23 00:00

→ vfgce: 若是有到萬筆以上,倒是可以試看看DL... 09/23 00:01

推 st1009: 是可以做到上萬筆，我們使用爬蟲每天再網路上抓資料，之後 09/23 00:03

→ st1009: 還會架相關實驗網站，那時候確實有機會 09/23 00:04

推 f496328mm: 最近 DL 很紅，很多教授都想做這塊，什麼都要搭上 AI， 09/23 10:02

→ f496328mm: DL 不是萬靈丹，其實 ML 也很強， 09/23 10:02

推 st1009: 其實DL就是一種ML不是嘛？ 09/23 10:17

推 sean50301: 由此例看到ML不能只會看範例程式碼照搬XD機統的基礎還 09/23 13:26

→ sean50301: 是很重要的 09/23 13:26

推 f496328mm: ML 很多概念都跟迴歸有關機統的基礎蠻重要的 09/23 13:30