Re: [請益] 機器學習在台灣的出路

作者popo14777 (草草)

看板Soft_Job

標題Re: [請益] 機器學習在台灣的出路

時間Mon Aug 28 13:22:43 2017

以前碩士有做過機器學習，用的語言是Matlab(LIBSVM)、Python(scikit-learn) 都是用監督式學習來做預測(y's=實數)，演算法大多都用SVR、隨機森林、迴歸樹、整體式學習等資料學習的步驟是以下這樣子讀取資料→資料前處理→分訓練資料和測試資料→選取特徵→建模→預測新資料 →畫圖或計算指標→分析結果若預測不好，就返回修改演算法參數，再建模，直到找出最佳模型看到版上有人說機器學習數學要很強，還要自已寫ML演算法不是都有人寫好了嗎?直接應用不是嗎? 也許是小弟對於ML領域還未深入了解，只是想提出自已的問題另外，若要往上述內容的工作(資料學習與分析)，需要具備什麼樣的專業知識或門檻呢? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.132.58.80 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1503897766.A.218.html ※ 編輯: popo14777 (220.132.58.80), 08/28/2017 13:27:35

→ hsnuyi: 說一下前處理和選取特徵是如何達成的吧 08/28 13:28

正規化，特徵選取理論則是用逐步回歸來選擇特徵，應用則是由專家決定特徵

推 dddddd67: 只會用現成的套件，這樣很多人都可以快速入門，替代性高 08/28 13:32

推 Jasonnor: 自然是看你走的方向，理論模型和實際應用兩者不盡相同， 08/28 13:41

→ Jasonnor: 前者良好的數學基礎會讓你的模型簡潔高效，後者更重視 08/28 13:41

→ Jasonnor: 個人經驗（包含模型選用、調參技巧和防止overfitting等 08/28 13:41

→ Jasonnor: ），當然兩者兼具的人會更有競爭力，這就看個人規劃了 08/28 13:41

推 f496328mm: 修參數不好吧，你不能保證，下次新的data，同樣參數還 08/28 13:42

→ f496328mm: 能實用，應該要做feature engineering，從這去下手 08/28 13:42

推 f496328mm: 數學方面，起碼要統計，而且你也說迴歸樹了，不懂迴歸 08/28 13:46

→ f496328mm: 很難做，況且svm還有kernel要選，RF背後也一堆數學，起 08/28 13:46

→ f496328mm: 碼要懂，不然參數根本亂調 08/28 13:46

嗯..目前知道c和gamma不能太大，不然會overfitting，以前老闆就說用窗格搜尋來決定最佳參數，也許是研究目的才需要這樣?

→ ericrobin: 實際上台灣也沒什麼產業需要人創新ML演算法吧多數精力 08/28 13:49

推 f496328mm: 數學的程度，起碼要懂model背後的概念 08/28 13:49

→ ericrobin: 大概都會是在資料清理跟特徵選取 08/28 13:50

推 f496328mm: 創新還是好的，拿XGB舉例，paper還沒發就超多人用，這 08/28 13:52

→ f496328mm: 就是價值 08/28 13:52

推 f496328mm: 而且不只是數學，這些方法都出來很久了，要靠資工去實 08/28 13:55

→ f496328mm: 作，例如GPU運算，這就是很大的突破，不只是DL，ML也在 08/28 13:55

→ f496328mm: 往這方向走 08/28 13:55

→ hsnuyi: 資料如果是自行取得的還要懂survey sampling呢科科 08/28 13:56

→ chter: 套別人的演算法誰都會，但也就沒甚麼價值 08/28 13:56

推 justben: 現在是雷聲大雨點小的狀態，但兩三年後不知道 08/28 14:00

→ f496328mm: 兩三年? 可是這些國外已經發展超過10年了 08/28 14:08

→ f496328mm: 光是 kaggle 就超過6年了 08/28 14:10

推 senjor: 我覺得重點是在於，台灣業界真的有這種需求嗎 www 08/28 14:27

※ 編輯: popo14777 (220.132.58.80), 08/28/2017 14:40:39 ※ 編輯: popo14777 (220.132.58.80), 08/28/2017 14:43:23

推 Argos: 所以搞自己的演算法就有價值？你也要看是在哪裡搞阿廠廠 08/28 17:32

→ ericrobin: 調參模型選擇資料處理之類的看起來沒什麼技術不過在 08/28 18:08

→ ericrobin: 工程上經驗上就是價值許多應用說穿了也沒多深奧 08/28 18:09

→ Murasaki0110: 只會這樣結果大概是你的model70%別人95%，差別就在 08/28 19:03

→ Murasaki0110: 這 08/28 19:03

推 senjor: 我之前在生狀資訊上面大家更在意整體流程跟vector怎麼選 08/28 19:17

→ senjor: Kernel帶來的效益反而不是重點，他們更想看見有效的vector 08/28 19:18

→ senjor: 跟資料處理流程怎麼被不同的kernel驗證是有效的。 08/28 19:18

→ senjor: 生物資訊 08/28 19:20

→ physheepy: 因為你的資料都被整理好了其實整理資料才是最難的部分 08/28 19:25

推 Kazimir: feature engineering 的效果遠遠超過你選什麼模型 08/28 19:35

→ Kazimir: DL相對來說更自動化不過人工選變數仍然有正面影響 08/28 19:37

推 f496328mm: data cleaning 就苦工最少人做，大家都想做data scient 08/28 19:44

→ f496328mm: ist 08/28 19:44

推 physheepy: data cleaning才是data science的精髓所謂 garbage in 08/28 19:54

→ physheepy: garbage out 演算法已經滿街都是 api簡化到阿罵都會用 08/28 19:54

→ physheepy: 市面上可以找到的database 沒有一個可直接拿來做應用 08/28 19:55

→ physheepy: 不過如果哪天G社把database都搞定上雲端那大家真的可 08/28 19:56

→ physheepy: 以洗洗睡了（煙 08/28 19:57

推 f496328mm: 研究所部分，其實台灣學術圈就是這樣，跟風騙經費的太 08/28 20:23

→ f496328mm: 多了，原PO可能不是，但太多教授根本不懂就在做計畫， 08/28 20:23

→ f496328mm: 反正學術圈做的很爛也沒人care 08/28 20:23

→ purpleboy01: 我也是正在用SVR於預測雖然scikit-learn很方便 08/29 01:37

→ purpleboy01: 但能不能了解SVR的原理然後去改它我想比較重要 08/29 01:38

→ purpleboy01: 這也是很常被老師提醒的部份(不過還沒自幹出來啦... 08/29 01:38

推 ppc: 玩kaggle的心得是 feature engineering真的很重要這方面 09/02 18:35

→ ppc: 又沒經驗只好在網路上找課程上了 09/02 18:35

推 marksein07: 跟你說你也聽不懂 kaggle打三個月你的問題就會自然 10/23 18:20

→ marksein07: 找到解答 10/23 18:20