Re: [請益] 先工作還是先唸書

作者Sidney0503 (Sidney0503)

看板Soft_Job

標題Re: [請益] 先工作還是先唸書

時間Wed Feb 14 17:24:50 2018

※ 引述《hsiaotzu0505 (走啦走啦)》之銘言： : 回朔以往的學習經驗， : 覺得「整理數據，得到有用結果」的過程很吸引我， : 但是已對純物理學術研究沒有興趣，也對半導體產業沒什麼興趣。既然你是物理出生想必數學能力是屌打資工出生的你所謂的整理數據得到有用的結果就是現在最熱門的Deep learning阿從Big Data以來發展出的 data mining技巧接著出現讓機器從資料學習的machine learning技術反正你對python有興趣可以嘗試實作一些常見基本工具比如說Multilayer perceptron、convolutional neural network之類的可以更有感覺 : Q:各位前輩覺得數據分析師是什麼樣的工作，擁有什麼樣的生活呢？是否能從什麼方面推 : 敲自己是否適合這樣的工作？今天才有八卦版問數學家的生活如何簡單說很爽阿不用出勞力待在電腦前動動腦和打打code而已而且軟工經驗豐富的人平均想10~20分鐘才打一行code -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.113.250.42 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1518600293.A.D9B.html

→ becca945: 坐電腦前半小時吃一個甜甜圈 02/14 18:49

推 vfgce: 你要整理什麼數據?除了物理之外,你有什麼專長? 02/14 20:10

→ vfgce: 資料分析要做得好,不是只有懂分析,還要有domain knowlege 02/14 20:11

推 goldflower: 依照Andrew Ng的說法 domain knowledge也會不重要啦 02/14 21:18

推 vfgce: 大數據炒得太過頭了,domain knowledge不重要? 02/14 21:50

→ vfgce: 先看看machine learning 是不是真的'學到'什麼東西 02/14 21:50

推 vfgce: 沒domain knowledge的話,送一堆圾圾來做machine learn也不 02/14 21:57

→ vfgce: 知道. 02/14 21:58

推 goldflower: 在資料分析domain knowledge開始變不重要就是大數據啊 02/15 01:53

→ goldflower: 恰好NN的強項就在於你送一堆垃圾只要裡面真的有有用 02/15 01:54

→ goldflower: 的數據他還是能學得不錯 02/15 01:54

很抱歉ML第一件事就是Training Error < Testing Error 送一堆垃圾跟就亂教小朋友一樣會學到奇怪的東西你的能學得不錯應該是指Autoencoder之類的架構但是那只能小幅度抗噪而且主要功能只是資料壓縮到較小的維度 decoder接到最後的ouput還是受Training Error限制 Deep Learning近年起來就是因為Training要三個要素在同期完成 1. 優良且大量的訓練資料光是做好data set都可以是一篇paper的主要貢獻了 2. GPGPU硬體近年才有足夠強大的硬體處理如此龐大的資料 3. 數學模型這塊領域也是近年才完全成熟

推 vfgce: 當你連垃圾還是有用資料都不會分時,確定有送進有用的東西? 02/15 09:23

→ vfgce: 垃圾就是垃圾,送進太多絕對還是會影響結果,大數據不是大就 02/15 09:25

→ vfgce: 好,你送進一堆垃圾就是在增加運算量及減少準確率. 02/15 09:26

推 goldflower: 你好像沒看到我的前提 "裡面真的有有用的數據" 02/15 14:42

training error一開始3%是一開始就知道這些收好的資料是正確的那又何來一堆垃圾? 還是你以為training可以一開始error50%訓練完testing error可以3%?

推 goldflower: 你要知道你送的是不是垃圾從error就知道了 02/15 14:44

不知道是誰說送一堆垃圾可以學得不錯

→ goldflower: 難道你看到error發現feature是垃圾還不懂得拿掉? 02/15 14:45

→ goldflower: 還有數學模型很老了好嗎... 02/15 14:45

原來2014年才出來的GAN是老模型阿煩請閣下教敝人最新的模型是什麼?

→ goldflower: 你在講什麼東西...我輪流放feature不就知道誰垃圾 02/15 14:47

→ goldflower: domain knowledge可以提早不用training就知道誰垃圾 02/15 14:48

→ goldflower: 哈哈你還扯GAN 現在最有貢獻的DL是GAN嗎? 02/15 14:48

→ goldflower: 你廣告推薦用GAN做? 02/15 14:49

→ goldflower: 寫得不太對不應該說貢獻而是說經濟產值 02/15 14:49

→ goldflower: 學得不錯不代表學得最好啊邏輯? 02/15 14:50

你一開始說NN可以送一堆垃圾能學到東西剛剛又說發現feature是垃圾還不懂得拿掉所以到底要送是不送搞得我很亂啊然後說數學模型很老發現GAN很新馬上改口提貢獻

→ goldflower: 原本在資料量大下相對robust就是NN強項不是常識嗎 02/15 14:50

→ goldflower: 我也沒說NN無敵啊但andrew ng就是說以現在的發展 02/15 14:51

→ goldflower: 來說這些domain knowledge的東西會漸漸都被取代掉 02/15 14:51

→ goldflower: 你可以送慢慢拿掉啊邏輯? 資料分析第一反應是GAN? 02/15 14:52

→ goldflower: 我都不懂你到底對資料分析是想用在哪裡了 02/15 14:53

說數學模型很老提一個新的又說沒用邏輯?

→ goldflower: 所以你對資料分析第一反應是GAN 笑死 02/15 14:54

→ goldflower: 人家就是想做現在市面上的資料分析然後這方面的數學 02/15 14:55

是阿是阿說別人的數學模型很老自己提了一個198X年就有得模型邏輯?

→ goldflower: 模型很老沒錯啊然後你說GAN很新還真的很會跳 02/15 14:56

→ goldflower: 你到底在跳什麼...看不懂 198x不老? 02/15 14:57

→ goldflower: 你現在又跳去概念了不是在講資料分析的數學模型嗎XD 02/15 14:59

奇怪了是誰說error差可以拿掉不要送NN的? 邏輯?

→ goldflower: 要拔掉資料我還以為是常識幾年出來的概念還真的笑死 02/15 15:00

→ goldflower: 反正比起跳跳人還是信andrew吧 02/15 15:01

推 goldflower: 我講拔feature 你在講hard negative data mining 02/15 15:05

→ goldflower: 你還是繼續跳吧 02/15 15:05

→ goldflower: 當然我猜你又要講我上面說拔資料了你還是往上看一點 02/15 15:06

一開始手動拔feature 送進去不就是training error小連自己是做training data set都不知道? 加油繼續跳針

→ goldflower: 而且domain knowledge我還真不知跟這個有啥關係 02/15 15:07

→ goldflower: 越跳越往外不知道在幹嘛我還是來去訓練我的模型 02/15 15:07

是阿不知道是誰說垃圾送NN可以學到東西但是前提是做過處理feature喔好笑

→ goldflower: ...我真的覺得你中文有很大的進步空間 02/15 15:08

推 goldflower: 哈哈哈我快不行了你還真的第一句就讀錯 02/15 15:11

不知道是誰的中文不好最一開始說垃圾可以送NN 然後改口要拔feature 邏輯? 現在已經一堆在用GAN做廣告預測使用者行為甚至連點擊網頁位置都會預測讓廣告區塊放在網頁的哪個區塊會讓使用者最想關注這種有in-out-in預測的不就是GAN強項? GAN最大的貢獻就是幅減少傳統NN動不動就需要十萬筆的training data set 另外像是mean-teacher這些讓原本per-trained model提升準確度的模型也是近年才出現 ※ 編輯: Sidney0503 (140.113.250.42), 02/15/2018 15:44:29

推 goldflower: 如果現在GAN的確有廣泛運用在廣告上那我的確孤陋寡聞 02/15 16:00

→ goldflower: 但是你前面仍舊沒看懂我所說的拔feature這件事有 02/15 16:01

→ goldflower: domain knowledge的人可以不用train就做 02/15 16:01

→ goldflower: 但andrew的說法就是這個步驟會被NN取代 02/15 16:02

→ goldflower: 然後建模的方式有domain knowledge的人可以做 02/15 16:02

→ goldflower: 但是一樣NN可以扮演這個角色 02/15 16:03

→ goldflower: 我其實前面在說的就只是這麼簡單的事情 02/15 16:03

→ goldflower: 所以是不是垃圾你train的時候就能發現回頭拔feature 02/15 16:05

→ goldflower: 我是覺得蠻直觀的啊 02/15 16:05

推 goldflower: 當然其實他講的這塊我是認為大部分在描述supervised 02/15 16:07

推 vfgce: 即使machine learning的模型準確率高,也不代表真的有學到 02/15 16:07

→ vfgce: 有意義的東西,如何選擇feature本來就是門學問, 02/15 16:08

→ vfgce: 一堆機器學習論文根本都繞著準確率在打轉,但到底學到什麼卻 02/15 16:09

→ vfgce: 沒有解釋. 02/15 16:10

→ vfgce: 為什麼?不就一堆人沒有domain knowledge,拿到資料就先做, 02/15 16:11

推 goldflower: 是啊所以現在其實有些論文的開始朝這部分的metric 02/15 16:11

→ goldflower: 去分析但是其實只有部分問題可以做 02/15 16:12

→ vfgce: 有好的結果就發表,但這東西能不能用?有沒有意義都沒法回答. 02/15 16:12

→ goldflower: 說實在的很多feature有用也是事後解釋 02/15 16:12

推 vfgce: 事後解釋沒有關係,重點還是要有domain knowledge才有辨法.. 02/15 16:17

→ vfgce: 不然做了一個準確率很高的模型,結果被內行人笑說沒意義... 02/15 16:18

推 goldflower: 有沒有意義是test說話不是內行人說沒意義就沒意義吧 02/15 16:19

→ vfgce: 就我懂的領域,就看過不少預測的feature根本就common sense. 02/15 16:19

→ vfgce: 一個說血糖值預測糖尿病很準的模型有什麼意義? 02/15 16:21

→ goldflower: 比如你可能做了一個人類覺得非常合理的模型 02/15 16:21

→ vfgce: 可是一堆純資工人卻做的很高興. 02/15 16:21

→ goldflower: 喔...你說的那個已經是不同的問題了 02/15 16:21

推 vfgce: 那有什麼不同,就是domain knowledge不會不重要,起碼可減少 02/15 16:24

→ vfgce: 做笨事的機會.... 02/15 16:24

推 Ommm5566: 阿法狗表示：他們在爭甚麼 02/15 16:24

推 Muscovy: 在爭下棋以外的東西... 02/15 16:25

→ Ommm5566: 阿法狗現在在練星海也在做醫療學習 02/15 16:28

推 goldflower: 但是請domain knowledge的價格跟import keras價格不同 02/15 16:28

→ goldflower: 請個import keras的慢慢從現有feature挑以現在的計算 02/15 16:29

→ goldflower: 資源來說也許還比較值得 02/15 16:31

→ goldflower: 我覺得前處理比較式微但是NN架構怎麼串比較有用 02/15 16:32

推 Ommm5566: 跟樓上說的一樣現在就一堆資料訓練師聽起來很帥 02/15 16:32

→ goldflower: 比如可以知道哪個資料該串去哪一層比較合理之類的 02/15 16:32

→ goldflower: 阿發現在星海不是蠻弱的不過應該還是贏我 02/15 16:33

→ Ommm5566: 我怎麼記得GOOGLE有一支是可以寫NN的AI 02/15 16:33

→ Ommm5566: 選擇layer的接法比人做出來的還好 02/15 16:33

→ Ommm5566: 資工人怎麼老是努力讓自己失業 02/15 16:33

→ goldflower: 最近reinforcement也越來越潮啊各種減少訓練時間 02/15 16:34

→ goldflower: 所以AI大成第一個失業的就是寫AI的 02/15 16:35

→ angusyu: 這年代口號最重要，其他都假的搞老半天沒人失業 02/15 16:56

推 waypin2002: 各種炒作等著搓泡泡 02/15 22:46