Re: [請益] 機器學習在台灣的出路

作者f496328mm (123)

看板Soft_Job

標題Re: [請益] 機器學習在台灣的出路

時間Tue Aug 29 00:36:16 2017

前面有幾篇說，拉一拉就好，連阿罵都會用..... 這也太扯了，就像 excel 、 spss，也是拉一拉就好了，那寫 R、Python 的是??? 寫 code 就是有他的強項阿況且你還要連 SQL ，甚至從 hadoop 撈 data ，阿罵這麼強？？就不講 data cleaning 了確實目前工具很完善，隨便都能做分析，做的很爛而已，沒做 feature engineering 的分析，頂多發碩論混畢業而已 feature engineering 絕對無法使用拖拉介面做出來，以我做 Kaggle 上的庫存銷售預測、購物籃分析、生產線分析來說 feature engineering 完全不同，這需要一些經驗，特別是，書上都不會教你這些，只能靠實作累積經驗大家都用相同的 model，憑什麼比別人好? 在 Kaggle 上這點就很明顯，你的 feature engineering 怎麼做才是重點，甚至是做 n-fold 去確保模型穩定，你不是靠運氣選到好的 testing data 做 feature selection 找出關鍵變數，找出哪個製程影響最大、出問題，再回去修正你的機台用 ML 分析 data 也只是 data mining 的一小部分，你要如何視覺化呈現？套件很多沒錯，那你要如何選擇？要如何解釋？不是分析完就沒事了， Kaggle 比較著重在分析，但事前的 data 收集、data cleaning 所花的時間，是分析的兩三倍以上，原始 data 是非常髒的，不同部門沒整合就不用說了，變數命名不同，日期格式不同等等，會弄到崩潰最後，單就 Kaggle 來說，依然有非常多企業丟出 data，丟出問題要你解決，特別是目前 ML model 還在進化中，最近 5 年出現的 XGB 打趴一堆 RF、SVM、GB 等，同樣問題，過去無法商業化，因為模型改進，未來有可能達到商業化的程度比較可惜的是，台灣真正在做的很少，學校就不用講了，一堆騙計畫的，不少研究生也說自己做過 ML ，用 SVM ，卻連 Kernel 都不知道，遇到 missing value 怎麼處理? 特別是學校碰到的 data 都只是玩玩罷了，data 小就算了，有些做二元分類連 imbalance 也不懂另外國外這方面的職缺還是不少在 kaggle 提供相關徵才中，就有超過 20 家公司需要這方面的人才 https://www.kaggle.com/jobs 如果你只會拉一拉，調調參數，那不叫做資料科學 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.90.122 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1503938180.A.F62.html

→ celestialgod: 正名一下是eature engineering... 08/29 00:38

感謝

→ celestialgod: /f 08/29 00:39

→ Murasaki0110: 一個學過小畫家就說幹嘛學photoshop的概念 08/29 00:41

推 vu04y94: 為何討論的方向偏向data mining了? 08/29 01:18

推 lukelove: @@ 一直搞不清楚DM 跟 ML 的分界, 板上比kaggle 的人這 08/29 01:20

目前 DM 一部分的核心就是 ML ，是有點離題拉即使單純寫新方法，也並非 google 那些大企業，拿 XGB 舉例，作者是個在國外念博士的中國人，非數學相關科系，因為這些理論都已經發展十幾年了，要怎麼有效率的實作才是重點

→ lukelove: 摸多, 想必如outrunner master等級的人也很多 08/29 01:21

推 vu04y94: 我的意思是還有CV NLP之類的尤其台灣作多媒體的公司不 08/29 01:25

→ vu04y94: 少啊 08/29 01:25

推 popo14777: 好像真正如大大所說的，都在騙計畫..很多碩論都有SVM 08/29 01:45

目前 DL 很夯更多拿 AI 去騙計畫的好像什麼都要跟 AI 扯上邊

→ hsnuyi: 原PO你是數學出生的吧很多CS的都沒你清楚啊XDD 08/29 02:17

→ hsnuyi: 講個笑話為了跟上潮流政府計畫名稱每幾年就要改個一次 08/29 02:21

→ hsnuyi: 一開始是智慧型XX 前幾年改成前瞻XX 現在則變成了人工智慧 08/29 02:21

→ hsnuyi: XX XDDD 08/29 02:21

對阿我數學系的，目前也不少數學系教授在做這方面 CS 領域很廣，所以做這方面的比較少人就我所知，台大一些 CS 的打 Kaggle 很強，其實 data mining 、ML、DL 這方面，資工課程比較完善，像是台大李宏毅的 ML 線上課程，林軒田，甚至是剛回國的陳縕儂( 超正教授XD ) 都是這方面的專家，而且都不是數學背景喔，所以資工做這塊不是問題

推 del680202: 外國外這方面的職缺還是不少 << 標題在問台灣來著 08/29 07:27

→ angusyu: 結論就是台灣沒適合的職缺 08/29 09:05

應該說這塊連國外都還在發展中 XGB的作者是個在美國念博士的中國人所以並非那些大企業在玩而台灣是有這方面的人就看台灣未來的走向了台灣未來對這塊的需求又是如何?? 其實這塊很多都在發展中是有機會走出自己的一條路的 ※ 編輯: f496328mm (114.36.63.197), 08/29/2017 09:34:52

推 ken90242: 這幾篇弄的我好亂 08/29 09:52

推 senjor: 我同意，我不認同的只是前幾篇有人提到不會寫自己的工具， 08/29 09:57

→ senjor: 只會拿別人工具來應用在案例上的人沒出路，這其實不太合理 08/29 09:57

推 ckp4131025: 以後可能會分工成，model廠商和應用廠商吧，我覺得會 08/29 10:02

→ ckp4131025: 類似eda,ide那種感覺 08/29 10:02

推 exthrash: 這篇才是真正在業界的人會po的心得 08/29 11:02

→ exthrash: 很多學生以為打打Kaggle 就跟實際工作差不多 08/29 11:03

→ exthrash: 真正工作上data cleaning/preprocessing佔了超多時間 08/29 11:03

推 exthrash: 另外懂數學會讓你調參數事半功倍 08/29 11:10

推 jason91818: 推 08/29 11:10

推 Telemio: 推真材實料心得 08/29 12:25

推 lukelove: 祝福大大早日 master 08/29 12:31

推 gogogogo3333: 陳天奇那種等級的已經超出一般人境界了... 08/29 12:32

→ lukelove: 看看陳天奇的論文數學推論成份也很高 08/29 12:35

主要想說的是，不是大公司才能做，而且他非數學相關科系

推 say29217074: 同意做過svm不知道KEREL那段qq 08/29 12:48

推 stosto: 做SVM不知道kernel? 08/29 17:55

某部分，不敢說大部分，做這方面的碩士生，使用 default 參數是很常見的，所以當然不會知道 kernel ，( 不是學店生喔 )

→ stosto: 另外使用很多演算法都要自己創model出來 08/29 17:55

→ stosto: 那才是真的演算法核心 08/29 17:56

這點是沒錯，大公司應該要分部門，專門研究這塊的，不過一般人，使用現成 model，做好其他部分就很厲害了，畢竟 model 只是其中一部分自己開發 model 這點，在 Kaggle 上也有這種情形，拿最近結束的比賽 Instacart Market Basket Analysis 來說就有參賽者開發出 arboretum - Gradient Boosting on GPU 當然成果是不錯的，另外 XGB 也是有 GPU 版本，未來 GPU 會被大大利用

推 searcher: 用autoML調參數呢? 08/29 19:58

→ searcher: 連用哪個演算法也不用選了 08/29 20:00

參數不會是重點，重點還是在 feature，應該這樣講，參數大家都會調，那憑什麼比其他人強？？

推 chocopie: 我是看過很多報期末專案，SVM或RF之類的跑一跑，數據列 08/29 20:43

→ chocopie: 一個小表格，好，結束。 08/29 20:43

學校很多都這樣阿，幾個方法比較一下，因為沒有壓力，做不好沒差有些小細節更是要注意，例如比較時，要設 seed ，相同的 training data、testing data，不然沒意義

→ chocopie: 然後一學期的愉快課程又結束了XD 08/29 20:44

→ chocopie: 摸完後回去繼續做自己的前端/後端 08/29 20:44

推 searcher: 用競賽的角度來說當然是比誰最厲害 08/29 21:06

→ searcher: 但不是所有的情況都是這樣 08/29 21:06

→ angusyu: 我只想說，這世界有太多人瞧不起工具應用 08/29 22:33

推 howhowyang: 真的！碩班做計畫收來的資料真的很髒，preprocessing 08/30 02:21

→ howhowyang: 超花時間，不過跟大大接觸過的資料比起來應該也只是 08/30 02:21

→ howhowyang: 小兒科 08/30 02:21

推 senjor: 大家寫的程式語言也不是自己開發的，這樣程式怎麼寫的好(X 08/30 09:58

推 lspci: 現在一堆腦殘會算平均標準差就自詡資料科學家了 08/31 03:06

推 ppc: 這篇寫得很好ㄟ 09/02 18:37

→ ppc: 剛碰Kaggle 真的覺得feature engineering很重要請問有推薦 09/02 18:38

→ ppc: 的課程可以看嗎我是打算先看Johns Hopkins的Data Science 09/02 18:39

→ ppc: 感謝 09/02 18:39

推 ppc: 稍微喵一下感覺這課程好像不怎樣@@ 09/02 21:50

我目前沒看過有教 feature engineering 的線上課程，可能這太細了，又是case by case 單就 ML 的話，台大李弘毅的不錯，youtube 上有我剛開始學，是直接打 Kaggle ，學習別人的方法，並沒有上線上課程， Kaggle 的 kernel 很有幫助，大家會分享自己的 code 與想法， code 不難讀，慢慢看累積經驗，建議你多做幾個題目，過期的比賽也沒關係不過排名至少要有 top 10% rank feature engineering 方面，我有對於兩個 kaggle 比賽上，寫篇文章介紹我的方法 https://github.com/f496328mm/kaggle_Grupo_Bimbo_Inventory_Demand https://github.com/f496328mm/kaggle_Bosch_Production_Line_Performance 我認為這只能靠經驗累積，基本上，類似的問題，feature engineering 都很類似這就是為什麼要找 feature，調參數很沒意義不過我也有經歷過初學者，陷入調參數的困境中，最好不要這樣，但是會這樣很正常有興趣可以合作玩玩看，我沒碰過的問題，我也不懂 feature，這需要花費很多時間，所以蠻希望找人合作 ※ 編輯: f496328mm (36.231.224.18), 09/03/2017 16:37:07

推 ppc: 感謝你我查了一下關於討論feature engineering的文章 09/05 22:42

→ ppc: 跟你說的一樣看來先多在Kaggle上邊練習邊看別人的做法累積經 09/05 22:42

→ ppc: 驗 09/05 22:43

→ ppc: 是初學者比較好的做法 09/05 22:43