→ hsnuyi: 說一下前處理和選取特徵是如何達成的吧 08/28 13:28
正規化,特徵選取理論則是用逐步回歸來選擇特徵,應用則是由專家決定特徵
推 dddddd67: 只會用現成的套件,這樣很多人都可以快速入門,替代性高 08/28 13:32
推 Jasonnor: 自然是看你走的方向,理論模型和實際應用兩者不盡相同, 08/28 13:41
→ Jasonnor: 前者良好的數學基礎會讓你的模型簡潔高效,後者更重視 08/28 13:41
→ Jasonnor: 個人經驗(包含模型選用、調參技巧和防止overfitting等 08/28 13:41
→ Jasonnor: ),當然兩者兼具的人會更有競爭力,這就看個人規劃了 08/28 13:41
推 f496328mm: 修參數不好吧,你不能保證,下次新的data,同樣參數還 08/28 13:42
→ f496328mm: 能實用,應該要做feature engineering,從這去下手 08/28 13:42
推 f496328mm: 數學方面,起碼要統計,而且你也說迴歸樹了,不懂迴歸 08/28 13:46
→ f496328mm: 很難做,況且svm還有kernel要選,RF背後也一堆數學,起 08/28 13:46
→ f496328mm: 碼要懂,不然參數根本亂調 08/28 13:46
嗯..目前知道c和gamma不能太大,不然會overfitting,以前老闆就說用窗格搜尋來
決定最佳參數,也許是研究目的才需要這樣?
→ ericrobin: 實際上台灣也沒什麼產業需要人創新ML演算法吧 多數精力 08/28 13:49
推 f496328mm: 數學的程度,起碼要懂model背後的概念 08/28 13:49
→ ericrobin: 大概都會是在資料清理跟特徵選取 08/28 13:50
推 f496328mm: 創新還是好的,拿XGB舉例,paper還沒發就超多人用,這 08/28 13:52
→ f496328mm: 就是價值 08/28 13:52
推 f496328mm: 而且不只是數學,這些方法都出來很久了,要靠資工去實 08/28 13:55
→ f496328mm: 作,例如GPU運算,這就是很大的突破,不只是DL,ML也在 08/28 13:55
→ f496328mm: 往這方向走 08/28 13:55
→ hsnuyi: 資料如果是自行取得的 還要懂survey sampling呢 科科 08/28 13:56
→ chter: 套別人的演算法誰都會,但也就沒甚麼價值 08/28 13:56
推 justben: 現在是雷聲大雨點小的狀態,但兩三年後不知道 08/28 14:00
→ f496328mm: 兩三年? 可是這些國外已經發展超過10年了 08/28 14:08
→ f496328mm: 光是 kaggle 就超過6年了 08/28 14:10
推 senjor: 我覺得重點是在於,台灣業界真的有這種需求嗎 www 08/28 14:27
※ 編輯: popo14777 (220.132.58.80), 08/28/2017 14:40:39
※ 編輯: popo14777 (220.132.58.80), 08/28/2017 14:43:23
推 Argos: 所以搞自己的演算法就有價值?你也要看是在哪裡搞阿 廠廠 08/28 17:32
→ ericrobin: 調參 模型選擇 資料處理之類的看起來沒什麼技術 不過在 08/28 18:08
→ ericrobin: 工程上經驗上就是價值 許多應用說穿了也沒多深奧 08/28 18:09
→ Murasaki0110: 只會這樣結果大概是你的model70%別人95%,差別就在 08/28 19:03
→ Murasaki0110: 這 08/28 19:03
推 senjor: 我之前在生狀資訊上面大家更在意整體流程跟vector怎麼選 08/28 19:17
→ senjor: Kernel帶來的效益反而不是重點,他們更想看見有效的vector 08/28 19:18
→ senjor: 跟資料處理流程怎麼被不同的kernel驗證是有效的。 08/28 19:18
→ senjor: 生物資訊 08/28 19:20
→ physheepy: 因為你的資料都被整理好了 其實整理資料才是最難的部分 08/28 19:25
推 Kazimir: feature engineering 的效果遠遠超過你選什麼模型 08/28 19:35
→ Kazimir: DL相對來說更自動化 不過人工選變數仍然有正面影響 08/28 19:37
推 f496328mm: data cleaning 就苦工最少人做,大家都想做data scient 08/28 19:44
→ f496328mm: ist 08/28 19:44
推 physheepy: data cleaning才是data science的精髓 所謂 garbage in 08/28 19:54
→ physheepy: garbage out 演算法已經滿街都是 api簡化到阿罵都會用 08/28 19:54
→ physheepy: 市面上可以找到的database 沒有一個可直接拿來做應用 08/28 19:55
→ physheepy: 不過如果哪天G社把database都搞定上雲端 那大家真的可 08/28 19:56
→ physheepy: 以洗洗睡了 (煙 08/28 19:57
推 f496328mm: 研究所部分,其實台灣學術圈就是這樣,跟風騙經費的太 08/28 20:23
→ f496328mm: 多了,原PO可能不是,但太多教授根本不懂就在做計畫, 08/28 20:23
→ f496328mm: 反正學術圈做的很爛也沒人care 08/28 20:23
→ purpleboy01: 我也是正在用SVR於預測 雖然scikit-learn很方便 08/29 01:37
→ purpleboy01: 但能不能了解SVR的原理然後去改它我想比較重要 08/29 01:38
→ purpleboy01: 這也是很常被老師提醒的部份(不過還沒自幹出來啦... 08/29 01:38
推 ppc: 玩kaggle的心得是 feature engineering真的很重要 這方面 09/02 18:35
→ ppc: 又沒經驗 只好在網路上找課程上了 09/02 18:35
推 marksein07: 跟你說 你也聽不懂 kaggle打三個月 你的問題就會自然 10/23 18:20
→ marksein07: 找到解答 10/23 18:20