看板 Soft_Job 關於我們 聯絡資訊
※ 引述《hsiaotzu0505 (走啦走啦)》之銘言: : 回朔以往的學習經驗, : 覺得「整理數據,得到有用結果」的過程很吸引我, : 但是已對純物理學術研究沒有興趣,也對半導體產業沒什麼興趣。 既然你是物理出生 想必數學能力是屌打資工出生的 你所謂的整理數據得到有用的結果 就是現在最熱門的Deep learning阿 從Big Data以來發展出的 data mining技巧 接著出現讓機器從資料學習的machine learning技術 反正你對python有興趣 可以嘗試實作一些常見基本工具 比如說Multilayer perceptron、convolutional neural network之類的可以更有感覺 : Q:各位前輩覺得數據分析師是什麼樣的工作,擁有什麼樣的生活呢?是否能從什麼方面推 : 敲自己是否適合這樣的工作? 今天才有八卦版問數學家的生活如何 簡單說很爽阿 不用出勞力 待在電腦前動動腦和打打code而已 而且軟工經驗豐富的人 平均想10~20分鐘才打一行code -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.113.250.42 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1518600293.A.D9B.html
becca945: 坐電腦前 半小時吃一個甜甜圈 02/14 18:49
vfgce: 你要整理什麼數據?除了物理之外,你有什麼專長? 02/14 20:10
vfgce: 資料分析要做得好,不是只有懂分析,還要有domain knowlege 02/14 20:11
goldflower: 依照Andrew Ng的說法 domain knowledge也會不重要啦 02/14 21:18
vfgce: 大數據炒得太過頭了,domain knowledge不重要? 02/14 21:50
vfgce: 先看看machine learning 是不是真的'學到'什麼東西 02/14 21:50
vfgce: 沒domain knowledge的話,送一堆圾圾來做machine learn也不 02/14 21:57
vfgce: 知道. 02/14 21:58
goldflower: 在資料分析domain knowledge開始變不重要就是大數據啊 02/15 01:53
goldflower: 恰好NN的強項就在於你送一堆垃圾 只要裡面真的有有用 02/15 01:54
goldflower: 的數據 他還是能學得不錯 02/15 01:54
很抱歉ML第一件事就是Training Error < Testing Error 送一堆垃圾跟就亂教小朋友一樣 會學到奇怪的東西 你的能學得不錯應該是指Autoencoder之類的架構 但是那只能小幅度抗噪 而且主要功能只是資料壓縮到較小的維度 decoder接到最後的ouput還是受Training Error限制 Deep Learning近年起來就是因為Training要三個要素在同期完成 1. 優良且大量的訓練資料 光是做好data set都可以是一篇paper的主要貢獻了 2. GPGPU硬體 近年才有足夠強大的硬體處理如此龐大的資料 3. 數學模型 這塊領域也是近年才完全成熟
vfgce: 當你連垃圾還是有用資料都不會分時,確定有送進有用的東西? 02/15 09:23
vfgce: 垃圾就是垃圾,送進太多絕對還是會影響結果,大數據不是大就 02/15 09:25
vfgce: 好,你送進一堆垃圾就是在增加運算量及減少準確率. 02/15 09:26
goldflower: 你好像沒看到我的前提 "裡面真的有有用的數據" 02/15 14:42
training error一開始3%是一開始就知道這些收好的資料是正確的 那又何來一堆垃圾? 還是你以為training可以一開始error50%訓練完testing error可以3%?
goldflower: 你要知道你送的是不是垃圾從error就知道了 02/15 14:44
不知道是誰說送一堆垃圾可以學得不錯
goldflower: 難道你看到error發現feature是垃圾還不懂得拿掉? 02/15 14:45
goldflower: 還有數學模型很老了好嗎... 02/15 14:45
原來2014年才出來的GAN是老模型阿 煩請閣下教敝人最新的模型是什麼?
goldflower: 你在講什麼東西...我輪流放feature不就知道誰垃圾 02/15 14:47
goldflower: domain knowledge可以提早不用training就知道誰垃圾 02/15 14:48
goldflower: 哈哈你還扯GAN 現在最有貢獻的DL是GAN嗎? 02/15 14:48
goldflower: 你廣告推薦用GAN做? 02/15 14:49
goldflower: 寫得不太對 不應該說貢獻 而是說經濟產值 02/15 14:49
goldflower: 學得不錯不代表學得最好啊 邏輯? 02/15 14:50
你一開始說NN可以送一堆垃圾能學到東西 剛剛又說發現feature是垃圾還不懂得拿掉 所以到底要送是不送搞得我很亂啊 然後說數學模型很老 發現GAN很新馬上改口提貢獻
goldflower: 原本在資料量大下相對robust就是NN強項不是常識嗎 02/15 14:50
goldflower: 我也沒說NN無敵啊 但andrew ng就是說以現在的發展 02/15 14:51
goldflower: 來說這些domain knowledge的東西會漸漸都被取代掉 02/15 14:51
goldflower: 你可以送慢慢拿掉啊 邏輯? 資料分析第一反應是GAN? 02/15 14:52
goldflower: 我都不懂你到底對資料分析是想用在哪裡了 02/15 14:53
說數學模型很老 提一個新的又說沒用 邏輯?
goldflower: 所以你對資料分析第一反應是GAN 笑死 02/15 14:54
goldflower: 人家就是想做現在市面上的資料分析 然後這方面的數學 02/15 14:55
是阿是阿 說別人的數學模型很老 自己提了一個198X年就有得模型 邏輯?
goldflower: 模型很老沒錯啊 然後你說GAN很新 還真的很會跳 02/15 14:56
goldflower: 你到底在跳什麼...看不懂 198x不老? 02/15 14:57
goldflower: 你現在又跳去概念了 不是在講資料分析的數學模型嗎XD 02/15 14:59
奇怪了 是誰說error差可以拿掉不要送NN的? 邏輯?
goldflower: 要拔掉資料我還以為是常識 幾年出來的概念還真的笑死 02/15 15:00
goldflower: 反正比起跳跳人 還是信andrew吧 02/15 15:01
goldflower: 我講拔feature 你在講hard negative data mining 02/15 15:05
goldflower: 你還是繼續跳吧 02/15 15:05
goldflower: 當然我猜你又要講我上面說拔資料了 你還是往上看一點 02/15 15:06
一開始手動拔feature 送進去不就是training error小 連自己是做training data set都不知道? 加油 繼續跳針
goldflower: 而且domain knowledge我還真不知跟這個有啥關係 02/15 15:07
goldflower: 越跳越往外 不知道在幹嘛 我還是來去訓練我的模型 02/15 15:07
是阿 不知道是誰說 垃圾送NN可以學到東西 但是前提是做過處理feature喔 好笑
goldflower: ...我真的覺得你中文有很大的進步空間 02/15 15:08
goldflower: 哈哈哈 我快不行了 你還真的第一句就讀錯 02/15 15:11
不知道是誰的中文不好最一開始說垃圾可以送NN 然後改口要拔feature 邏輯? 現在已經一堆在用GAN做廣告 預測使用者行為 甚至連點擊網頁位置都會預測 讓廣告區塊放在網頁的哪個區塊會讓使用者最想關注 這種有in-out-in預測的不就是GAN強項? GAN最大的貢獻就是幅減少傳統NN動不動就需要十萬筆的training data set 另外像是mean-teacher這些讓原本per-trained model提升準確度的模型也是近年才出現 ※ 編輯: Sidney0503 (140.113.250.42), 02/15/2018 15:44:29
goldflower: 如果現在GAN的確有廣泛運用在廣告上那我的確孤陋寡聞 02/15 16:00
goldflower: 但是你前面仍舊沒看懂我所說的 拔feature這件事有 02/15 16:01
goldflower: domain knowledge的人可以不用train就做 02/15 16:01
goldflower: 但andrew的說法就是這個步驟會被NN取代 02/15 16:02
goldflower: 然後建模的方式有domain knowledge的人可以做 02/15 16:02
goldflower: 但是一樣NN可以扮演這個角色 02/15 16:03
goldflower: 我其實前面在說的就只是這麼簡單的事情 02/15 16:03
goldflower: 所以是不是垃圾你train的時候就能發現 回頭拔feature 02/15 16:05
goldflower: 我是覺得蠻直觀的啊 02/15 16:05
goldflower: 當然其實他講的這塊我是認為大部分在描述supervised 02/15 16:07
vfgce: 即使machine learning的模型準確率高,也不代表真的有學到 02/15 16:07
vfgce: 有意義的東西,如何選擇feature本來就是門學問, 02/15 16:08
vfgce: 一堆機器學習論文根本都繞著準確率在打轉,但到底學到什麼卻 02/15 16:09
vfgce: 沒有解釋. 02/15 16:10
vfgce: 為什麼?不就一堆人沒有domain knowledge,拿到資料就先做, 02/15 16:11
goldflower: 是啊 所以現在其實有些論文的開始朝這部分的metric 02/15 16:11
goldflower: 去分析 但是其實只有部分問題可以做 02/15 16:12
vfgce: 有好的結果就發表,但這東西能不能用?有沒有意義都沒法回答. 02/15 16:12
goldflower: 說實在的很多feature有用也是事後解釋 02/15 16:12
vfgce: 事後解釋沒有關係,重點還是要有domain knowledge才有辨法.. 02/15 16:17
vfgce: 不然做了一個準確率很高的模型,結果被內行人笑說沒意義... 02/15 16:18
goldflower: 有沒有意義是test說話 不是內行人說沒意義就沒意義吧 02/15 16:19
vfgce: 就我懂的領域,就看過不少預測的feature根本就common sense. 02/15 16:19
vfgce: 一個說血糖值預測糖尿病很準的模型有什麼意義? 02/15 16:21
goldflower: 比如你可能做了一個人類覺得非常合理的模型 02/15 16:21
vfgce: 可是一堆純資工人卻做的很高興. 02/15 16:21
goldflower: 喔...你說的那個已經是不同的問題了 02/15 16:21
vfgce: 那有什麼不同,就是domain knowledge不會不重要,起碼可減少 02/15 16:24
vfgce: 做笨事的機會.... 02/15 16:24
Ommm5566: 阿法狗表示:他們在爭甚麼 02/15 16:24
Muscovy: 在爭下棋以外的東西... 02/15 16:25
Ommm5566: 阿法狗現在在練星海 也在做醫療學習 02/15 16:28
goldflower: 但是請domain knowledge的價格跟import keras價格不同 02/15 16:28
goldflower: 請個import keras的慢慢從現有feature挑 以現在的計算 02/15 16:29
goldflower: 資源來說也許還比較值得 02/15 16:31
goldflower: 我覺得前處理比較式微 但是NN架構怎麼串比較有用 02/15 16:32
Ommm5566: 跟樓上說的一樣 現在就一堆資料訓練師 聽起來很帥 02/15 16:32
goldflower: 比如可以知道哪個資料該串去哪一層比較合理之類的 02/15 16:32
goldflower: 阿發現在星海不是蠻弱的 不過應該還是贏我 02/15 16:33
Ommm5566: 我怎麼記得GOOGLE有一支是可以寫NN的AI 02/15 16:33
Ommm5566: 選擇layer的接法比人做出來的還好 02/15 16:33
Ommm5566: 資工人怎麼老是努力讓自己失業 02/15 16:33
goldflower: 最近reinforcement也越來越潮啊 各種減少訓練時間 02/15 16:34
goldflower: 所以AI大成第一個失業的就是寫AI的 02/15 16:35
angusyu: 這年代口號最重要,其他都假的 搞老半天沒人失業 02/15 16:56
waypin2002: 各種炒作 等著搓泡泡 02/15 22:46