→ becca945: 坐電腦前 半小時吃一個甜甜圈 02/14 18:49
推 vfgce: 你要整理什麼數據?除了物理之外,你有什麼專長? 02/14 20:10
→ vfgce: 資料分析要做得好,不是只有懂分析,還要有domain knowlege 02/14 20:11
推 goldflower: 依照Andrew Ng的說法 domain knowledge也會不重要啦 02/14 21:18
推 vfgce: 大數據炒得太過頭了,domain knowledge不重要? 02/14 21:50
→ vfgce: 先看看machine learning 是不是真的'學到'什麼東西 02/14 21:50
推 vfgce: 沒domain knowledge的話,送一堆圾圾來做machine learn也不 02/14 21:57
→ vfgce: 知道. 02/14 21:58
推 goldflower: 在資料分析domain knowledge開始變不重要就是大數據啊 02/15 01:53
→ goldflower: 恰好NN的強項就在於你送一堆垃圾 只要裡面真的有有用 02/15 01:54
→ goldflower: 的數據 他還是能學得不錯 02/15 01:54
很抱歉ML第一件事就是Training Error < Testing Error
送一堆垃圾跟就亂教小朋友一樣 會學到奇怪的東西
你的能學得不錯應該是指Autoencoder之類的架構 但是那只能小幅度抗噪
而且主要功能只是資料壓縮到較小的維度
decoder接到最後的ouput還是受Training Error限制
Deep Learning近年起來就是因為Training要三個要素在同期完成
1. 優良且大量的訓練資料 光是做好data set都可以是一篇paper的主要貢獻了
2. GPGPU硬體 近年才有足夠強大的硬體處理如此龐大的資料
3. 數學模型 這塊領域也是近年才完全成熟
推 vfgce: 當你連垃圾還是有用資料都不會分時,確定有送進有用的東西? 02/15 09:23
→ vfgce: 垃圾就是垃圾,送進太多絕對還是會影響結果,大數據不是大就 02/15 09:25
→ vfgce: 好,你送進一堆垃圾就是在增加運算量及減少準確率. 02/15 09:26
推 goldflower: 你好像沒看到我的前提 "裡面真的有有用的數據" 02/15 14:42
training error一開始3%是一開始就知道這些收好的資料是正確的 那又何來一堆垃圾?
還是你以為training可以一開始error50%訓練完testing error可以3%?
推 goldflower: 你要知道你送的是不是垃圾從error就知道了 02/15 14:44
不知道是誰說送一堆垃圾可以學得不錯
→ goldflower: 難道你看到error發現feature是垃圾還不懂得拿掉? 02/15 14:45
→ goldflower: 還有數學模型很老了好嗎... 02/15 14:45
原來2014年才出來的GAN是老模型阿 煩請閣下教敝人最新的模型是什麼?
→ goldflower: 你在講什麼東西...我輪流放feature不就知道誰垃圾 02/15 14:47
→ goldflower: domain knowledge可以提早不用training就知道誰垃圾 02/15 14:48
→ goldflower: 哈哈你還扯GAN 現在最有貢獻的DL是GAN嗎? 02/15 14:48
→ goldflower: 你廣告推薦用GAN做? 02/15 14:49
→ goldflower: 寫得不太對 不應該說貢獻 而是說經濟產值 02/15 14:49
→ goldflower: 學得不錯不代表學得最好啊 邏輯? 02/15 14:50
你一開始說NN可以送一堆垃圾能學到東西 剛剛又說發現feature是垃圾還不懂得拿掉
所以到底要送是不送搞得我很亂啊 然後說數學模型很老 發現GAN很新馬上改口提貢獻
→ goldflower: 原本在資料量大下相對robust就是NN強項不是常識嗎 02/15 14:50
→ goldflower: 我也沒說NN無敵啊 但andrew ng就是說以現在的發展 02/15 14:51
→ goldflower: 來說這些domain knowledge的東西會漸漸都被取代掉 02/15 14:51
→ goldflower: 你可以送慢慢拿掉啊 邏輯? 資料分析第一反應是GAN? 02/15 14:52
→ goldflower: 我都不懂你到底對資料分析是想用在哪裡了 02/15 14:53
說數學模型很老 提一個新的又說沒用 邏輯?
→ goldflower: 所以你對資料分析第一反應是GAN 笑死 02/15 14:54
→ goldflower: 人家就是想做現在市面上的資料分析 然後這方面的數學 02/15 14:55
是阿是阿 說別人的數學模型很老 自己提了一個198X年就有得模型 邏輯?
→ goldflower: 模型很老沒錯啊 然後你說GAN很新 還真的很會跳 02/15 14:56
→ goldflower: 你到底在跳什麼...看不懂 198x不老? 02/15 14:57
→ goldflower: 你現在又跳去概念了 不是在講資料分析的數學模型嗎XD 02/15 14:59
奇怪了 是誰說error差可以拿掉不要送NN的? 邏輯?
→ goldflower: 要拔掉資料我還以為是常識 幾年出來的概念還真的笑死 02/15 15:00
→ goldflower: 反正比起跳跳人 還是信andrew吧 02/15 15:01
推 goldflower: 我講拔feature 你在講hard negative data mining 02/15 15:05
→ goldflower: 你還是繼續跳吧 02/15 15:05
→ goldflower: 當然我猜你又要講我上面說拔資料了 你還是往上看一點 02/15 15:06
一開始手動拔feature 送進去不就是training error小
連自己是做training data set都不知道? 加油 繼續跳針
→ goldflower: 而且domain knowledge我還真不知跟這個有啥關係 02/15 15:07
→ goldflower: 越跳越往外 不知道在幹嘛 我還是來去訓練我的模型 02/15 15:07
是阿 不知道是誰說 垃圾送NN可以學到東西 但是前提是做過處理feature喔 好笑
→ goldflower: ...我真的覺得你中文有很大的進步空間 02/15 15:08
推 goldflower: 哈哈哈 我快不行了 你還真的第一句就讀錯 02/15 15:11
不知道是誰的中文不好最一開始說垃圾可以送NN 然後改口要拔feature 邏輯?
現在已經一堆在用GAN做廣告 預測使用者行為 甚至連點擊網頁位置都會預測
讓廣告區塊放在網頁的哪個區塊會讓使用者最想關注
這種有in-out-in預測的不就是GAN強項?
GAN最大的貢獻就是幅減少傳統NN動不動就需要十萬筆的training data set
另外像是mean-teacher這些讓原本per-trained model提升準確度的模型也是近年才出現
※ 編輯: Sidney0503 (140.113.250.42), 02/15/2018 15:44:29
推 goldflower: 如果現在GAN的確有廣泛運用在廣告上那我的確孤陋寡聞 02/15 16:00
→ goldflower: 但是你前面仍舊沒看懂我所說的 拔feature這件事有 02/15 16:01
→ goldflower: domain knowledge的人可以不用train就做 02/15 16:01
→ goldflower: 但andrew的說法就是這個步驟會被NN取代 02/15 16:02
→ goldflower: 然後建模的方式有domain knowledge的人可以做 02/15 16:02
→ goldflower: 但是一樣NN可以扮演這個角色 02/15 16:03
→ goldflower: 我其實前面在說的就只是這麼簡單的事情 02/15 16:03
→ goldflower: 所以是不是垃圾你train的時候就能發現 回頭拔feature 02/15 16:05
→ goldflower: 我是覺得蠻直觀的啊 02/15 16:05
推 goldflower: 當然其實他講的這塊我是認為大部分在描述supervised 02/15 16:07
推 vfgce: 即使machine learning的模型準確率高,也不代表真的有學到 02/15 16:07
→ vfgce: 有意義的東西,如何選擇feature本來就是門學問, 02/15 16:08
→ vfgce: 一堆機器學習論文根本都繞著準確率在打轉,但到底學到什麼卻 02/15 16:09
→ vfgce: 沒有解釋. 02/15 16:10
→ vfgce: 為什麼?不就一堆人沒有domain knowledge,拿到資料就先做, 02/15 16:11
推 goldflower: 是啊 所以現在其實有些論文的開始朝這部分的metric 02/15 16:11
→ goldflower: 去分析 但是其實只有部分問題可以做 02/15 16:12
→ vfgce: 有好的結果就發表,但這東西能不能用?有沒有意義都沒法回答. 02/15 16:12
→ goldflower: 說實在的很多feature有用也是事後解釋 02/15 16:12
推 vfgce: 事後解釋沒有關係,重點還是要有domain knowledge才有辨法.. 02/15 16:17
→ vfgce: 不然做了一個準確率很高的模型,結果被內行人笑說沒意義... 02/15 16:18
推 goldflower: 有沒有意義是test說話 不是內行人說沒意義就沒意義吧 02/15 16:19
→ vfgce: 就我懂的領域,就看過不少預測的feature根本就common sense. 02/15 16:19
→ vfgce: 一個說血糖值預測糖尿病很準的模型有什麼意義? 02/15 16:21
→ goldflower: 比如你可能做了一個人類覺得非常合理的模型 02/15 16:21
→ vfgce: 可是一堆純資工人卻做的很高興. 02/15 16:21
→ goldflower: 喔...你說的那個已經是不同的問題了 02/15 16:21
推 vfgce: 那有什麼不同,就是domain knowledge不會不重要,起碼可減少 02/15 16:24
→ vfgce: 做笨事的機會.... 02/15 16:24
推 Ommm5566: 阿法狗表示:他們在爭甚麼 02/15 16:24
推 Muscovy: 在爭下棋以外的東西... 02/15 16:25
→ Ommm5566: 阿法狗現在在練星海 也在做醫療學習 02/15 16:28
推 goldflower: 但是請domain knowledge的價格跟import keras價格不同 02/15 16:28
→ goldflower: 請個import keras的慢慢從現有feature挑 以現在的計算 02/15 16:29
→ goldflower: 資源來說也許還比較值得 02/15 16:31
→ goldflower: 我覺得前處理比較式微 但是NN架構怎麼串比較有用 02/15 16:32
推 Ommm5566: 跟樓上說的一樣 現在就一堆資料訓練師 聽起來很帥 02/15 16:32
→ goldflower: 比如可以知道哪個資料該串去哪一層比較合理之類的 02/15 16:32
→ goldflower: 阿發現在星海不是蠻弱的 不過應該還是贏我 02/15 16:33
→ Ommm5566: 我怎麼記得GOOGLE有一支是可以寫NN的AI 02/15 16:33
→ Ommm5566: 選擇layer的接法比人做出來的還好 02/15 16:33
→ Ommm5566: 資工人怎麼老是努力讓自己失業 02/15 16:33
→ goldflower: 最近reinforcement也越來越潮啊 各種減少訓練時間 02/15 16:34
→ goldflower: 所以AI大成第一個失業的就是寫AI的 02/15 16:35
→ angusyu: 這年代口號最重要,其他都假的 搞老半天沒人失業 02/15 16:56
推 waypin2002: 各種炒作 等著搓泡泡 02/15 22:46