看板 Soft_Job 關於我們 聯絡資訊
以前碩士有做過機器學習,用的語言是Matlab(LIBSVM)、Python(scikit-learn) 都是用監督式學習來做預測(y's=實數), 演算法大多都用SVR、隨機森林、迴歸樹、整體式學習等 資料學習的步驟是以下這樣子 讀取資料→資料前處理→分訓練資料和測試資料→選取特徵→建模→預測新資料 →畫圖或計算指標→分析結果 若預測不好,就返回修改演算法參數,再建模,直到找出最佳模型 看到版上有人說機器學習數學要很強,還要自已寫ML演算法 不是都有人寫好了嗎?直接應用不是嗎? 也許是小弟對於ML領域還未深入了解,只是想提出自已的問題 另外,若要往上述內容的工作(資料學習與分析),需要具備什麼樣的專業知識或門檻呢? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.132.58.80 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1503897766.A.218.html ※ 編輯: popo14777 (220.132.58.80), 08/28/2017 13:27:35
hsnuyi: 說一下前處理和選取特徵是如何達成的吧 08/28 13:28
正規化,特徵選取理論則是用逐步回歸來選擇特徵,應用則是由專家決定特徵
dddddd67: 只會用現成的套件,這樣很多人都可以快速入門,替代性高 08/28 13:32
Jasonnor: 自然是看你走的方向,理論模型和實際應用兩者不盡相同, 08/28 13:41
Jasonnor: 前者良好的數學基礎會讓你的模型簡潔高效,後者更重視 08/28 13:41
Jasonnor: 個人經驗(包含模型選用、調參技巧和防止overfitting等 08/28 13:41
Jasonnor: ),當然兩者兼具的人會更有競爭力,這就看個人規劃了 08/28 13:41
f496328mm: 修參數不好吧,你不能保證,下次新的data,同樣參數還 08/28 13:42
f496328mm: 能實用,應該要做feature engineering,從這去下手 08/28 13:42
f496328mm: 數學方面,起碼要統計,而且你也說迴歸樹了,不懂迴歸 08/28 13:46
f496328mm: 很難做,況且svm還有kernel要選,RF背後也一堆數學,起 08/28 13:46
f496328mm: 碼要懂,不然參數根本亂調 08/28 13:46
嗯..目前知道c和gamma不能太大,不然會overfitting,以前老闆就說用窗格搜尋來 決定最佳參數,也許是研究目的才需要這樣?
ericrobin: 實際上台灣也沒什麼產業需要人創新ML演算法吧 多數精力 08/28 13:49
f496328mm: 數學的程度,起碼要懂model背後的概念 08/28 13:49
ericrobin: 大概都會是在資料清理跟特徵選取 08/28 13:50
f496328mm: 創新還是好的,拿XGB舉例,paper還沒發就超多人用,這 08/28 13:52
f496328mm: 就是價值 08/28 13:52
f496328mm: 而且不只是數學,這些方法都出來很久了,要靠資工去實 08/28 13:55
f496328mm: 作,例如GPU運算,這就是很大的突破,不只是DL,ML也在 08/28 13:55
f496328mm: 往這方向走 08/28 13:55
hsnuyi: 資料如果是自行取得的 還要懂survey sampling呢 科科 08/28 13:56
chter: 套別人的演算法誰都會,但也就沒甚麼價值 08/28 13:56
justben: 現在是雷聲大雨點小的狀態,但兩三年後不知道 08/28 14:00
f496328mm: 兩三年? 可是這些國外已經發展超過10年了 08/28 14:08
f496328mm: 光是 kaggle 就超過6年了 08/28 14:10
senjor: 我覺得重點是在於,台灣業界真的有這種需求嗎 www 08/28 14:27
※ 編輯: popo14777 (220.132.58.80), 08/28/2017 14:40:39 ※ 編輯: popo14777 (220.132.58.80), 08/28/2017 14:43:23
Argos: 所以搞自己的演算法就有價值?你也要看是在哪裡搞阿 廠廠 08/28 17:32
ericrobin: 調參 模型選擇 資料處理之類的看起來沒什麼技術 不過在 08/28 18:08
ericrobin: 工程上經驗上就是價值 許多應用說穿了也沒多深奧 08/28 18:09
Murasaki0110: 只會這樣結果大概是你的model70%別人95%,差別就在 08/28 19:03
Murasaki0110: 這 08/28 19:03
senjor: 我之前在生狀資訊上面大家更在意整體流程跟vector怎麼選 08/28 19:17
senjor: Kernel帶來的效益反而不是重點,他們更想看見有效的vector 08/28 19:18
senjor: 跟資料處理流程怎麼被不同的kernel驗證是有效的。 08/28 19:18
senjor: 生物資訊 08/28 19:20
physheepy: 因為你的資料都被整理好了 其實整理資料才是最難的部分 08/28 19:25
Kazimir: feature engineering 的效果遠遠超過你選什麼模型 08/28 19:35
Kazimir: DL相對來說更自動化 不過人工選變數仍然有正面影響 08/28 19:37
f496328mm: data cleaning 就苦工最少人做,大家都想做data scient 08/28 19:44
f496328mm: ist 08/28 19:44
physheepy: data cleaning才是data science的精髓 所謂 garbage in 08/28 19:54
physheepy: garbage out 演算法已經滿街都是 api簡化到阿罵都會用 08/28 19:54
physheepy: 市面上可以找到的database 沒有一個可直接拿來做應用 08/28 19:55
physheepy: 不過如果哪天G社把database都搞定上雲端 那大家真的可 08/28 19:56
physheepy: 以洗洗睡了 (煙 08/28 19:57
f496328mm: 研究所部分,其實台灣學術圈就是這樣,跟風騙經費的太 08/28 20:23
f496328mm: 多了,原PO可能不是,但太多教授根本不懂就在做計畫, 08/28 20:23
f496328mm: 反正學術圈做的很爛也沒人care 08/28 20:23
purpleboy01: 我也是正在用SVR於預測 雖然scikit-learn很方便 08/29 01:37
purpleboy01: 但能不能了解SVR的原理然後去改它我想比較重要 08/29 01:38
purpleboy01: 這也是很常被老師提醒的部份(不過還沒自幹出來啦... 08/29 01:38
ppc: 玩kaggle的心得是 feature engineering真的很重要 這方面 09/02 18:35
ppc: 又沒經驗 只好在網路上找課程上了 09/02 18:35
marksein07: 跟你說 你也聽不懂 kaggle打三個月 你的問題就會自然 10/23 18:20
marksein07: 找到解答 10/23 18:20