→ celestialgod: 正名一下 是eature engineering... 08/29 00:38
感謝
→ celestialgod: /f 08/29 00:39
→ Murasaki0110: 一個學過小畫家就說幹嘛學photoshop的概念 08/29 00:41
推 vu04y94: 為何討論的方向偏向data mining了? 08/29 01:18
推 lukelove: @@ 一直搞不清楚DM 跟 ML 的分界, 板上 比kaggle 的人這 08/29 01:20
目前 DM 一部分的核心就是 ML ,是有點離題拉
即使單純寫新方法,也並非 google 那些大企業,
拿 XGB 舉例,作者是個在國外念博士的中國人,非數學相關科系,
因為這些理論都已經發展十幾年了,要怎麼有效率的實作才是重點
→ lukelove: 摸多, 想必如outrunner master等級的人也很多 08/29 01:21
推 vu04y94: 我的意思是還有CV NLP之類的 尤其台灣作多媒體的公司不 08/29 01:25
→ vu04y94: 少啊 08/29 01:25
推 popo14777: 好像真正如大大所說的,都在騙計畫..很多碩論都有SVM 08/29 01:45
目前 DL 很夯 更多拿 AI 去騙計畫的 好像什麼都要跟 AI 扯上邊
→ hsnuyi: 原PO你是數學出生的吧 很多CS的都沒你清楚啊XDD 08/29 02:17
→ hsnuyi: 講個笑話 為了跟上潮流 政府計畫名稱每幾年就要改個一次 08/29 02:21
→ hsnuyi: 一開始是智慧型XX 前幾年改成前瞻XX 現在則變成了人工智慧 08/29 02:21
→ hsnuyi: XX XDDD 08/29 02:21
對阿我數學系的,目前也不少數學系教授在做這方面
CS 領域很廣,所以做這方面的比較少人
就我所知,台大一些 CS 的打 Kaggle 很強,
其實 data mining 、ML、DL 這方面,資工課程比較完善,
像是台大李宏毅的 ML 線上課程,林軒田,甚至是剛回國的陳縕儂( 超正教授XD )
都是這方面的專家,而且都不是數學背景喔,所以資工做這塊不是問題
推 del680202: 外國外這方面的職缺還是不少 << 標題在問台灣來著 08/29 07:27
→ angusyu: 結論就是台灣沒適合的職缺 08/29 09:05
應該說 這塊連國外都還在發展中 XGB的作者是個在美國念博士的中國人
所以並非那些大企業在玩
而台灣是有這方面的人 就看台灣未來的走向了
台灣未來對這塊的需求又是如何??
其實這塊很多都在發展中 是有機會走出自己的一條路的
※ 編輯: f496328mm (114.36.63.197), 08/29/2017 09:34:52
推 ken90242: 這幾篇弄的我好亂 08/29 09:52
推 senjor: 我同意,我不認同的只是前幾篇有人提到不會寫自己的工具, 08/29 09:57
→ senjor: 只會拿別人工具來應用在案例上的人沒出路,這其實不太合理 08/29 09:57
推 ckp4131025: 以後可能會分工成,model廠商和應用廠商吧,我覺得會 08/29 10:02
→ ckp4131025: 類似eda,ide那種感覺 08/29 10:02
推 exthrash: 這篇才是真正在業界的人會po的心得 08/29 11:02
→ exthrash: 很多學生以為打打Kaggle 就跟實際工作差不多 08/29 11:03
→ exthrash: 真正工作上data cleaning/preprocessing佔了超多時間 08/29 11:03
推 exthrash: 另外 懂數學 會讓你調參數事半功倍 08/29 11:10
推 jason91818: 推 08/29 11:10
推 Telemio: 推 真材實料心得 08/29 12:25
推 lukelove: 祝福大大早日 master 08/29 12:31
推 gogogogo3333: 陳天奇 那種等級的 已經超出一般人境界了... 08/29 12:32
→ lukelove: 看看陳天奇的論文 數學推論成份也很高 08/29 12:35
主要想說的是,不是大公司才能做,而且他非數學相關科系
推 say29217074: 同意做過svm不知道KEREL那段qq 08/29 12:48
推 stosto: 做SVM不知道kernel? 08/29 17:55
某部分,不敢說大部分,做這方面的碩士生,使用 default 參數是很常見的,
所以當然不會知道 kernel ,( 不是學店生喔 )
→ stosto: 另外使用很多演算法都要自己創model出來 08/29 17:55
→ stosto: 那才是真的演算法核心 08/29 17:56
這點是沒錯,大公司應該要分部門,專門研究這塊的,
不過一般人,使用現成 model,做好其他部分就很厲害了,畢竟 model 只是其中一部分
自己開發 model 這點,在 Kaggle 上也有這種情形,拿最近結束的比賽
Instacart Market Basket Analysis 來說
就有參賽者開發出 arboretum - Gradient Boosting on GPU
當然成果是不錯的,另外 XGB 也是有 GPU 版本,未來 GPU 會被大大利用
推 searcher: 用autoML調參數呢? 08/29 19:58
→ searcher: 連用哪個演算法也不用選了 08/29 20:00
參數不會是重點,重點還是在 feature,
應該這樣講,參數大家都會調,那憑什麼比其他人強??
推 chocopie: 我是看過很多報期末專案,SVM或RF之類的跑一跑,數據列 08/29 20:43
→ chocopie: 一個小表格,好,結束。 08/29 20:43
學校很多都這樣阿,幾個方法比較一下,因為沒有壓力,做不好沒差
有些小細節更是要注意,
例如比較時,要設 seed ,相同的 training data、testing data,
不然沒意義
→ chocopie: 然後一學期的愉快課程又結束了XD 08/29 20:44
→ chocopie: 摸完後回去繼續做自己的前端/後端 08/29 20:44
推 searcher: 用競賽的角度來說當然是比誰最厲害 08/29 21:06
→ searcher: 但不是所有的情況都是這樣 08/29 21:06
→ angusyu: 我只想說,這世界有太多人瞧不起工具應用 08/29 22:33
推 howhowyang: 真的!碩班做計畫收來的資料真的很髒,preprocessing 08/30 02:21
→ howhowyang: 超花時間,不過跟大大接觸過的資料比起來應該也只是 08/30 02:21
→ howhowyang: 小兒科 08/30 02:21
推 senjor: 大家寫的程式語言也不是自己開發的,這樣程式怎麼寫的好(X 08/30 09:58
推 lspci: 現在一堆腦殘會算平均標準差就自詡資料科學家了 08/31 03:06
推 ppc: 這篇寫得很好ㄟ 09/02 18:37
→ ppc: 剛碰Kaggle 真的覺得feature engineering很重要 請問有推薦 09/02 18:38
→ ppc: 的課程可以看嗎 我是打算先看Johns Hopkins的Data Science 09/02 18:39
→ ppc: 感謝 09/02 18:39
推 ppc: 稍微喵一下感覺這課程好像不怎樣@@ 09/02 21:50
我目前沒看過有教 feature engineering 的線上課程,可能這太細了,又是case by case
單就 ML 的話,台大李弘毅的不錯,youtube 上有
我剛開始學,是直接打 Kaggle ,學習別人的方法,並沒有上線上課程,
Kaggle 的 kernel 很有幫助,大家會分享自己的 code 與想法,
code 不難讀,慢慢看累積經驗,建議你多做幾個題目,過期的比賽也沒關係
不過排名至少要有 top 10% rank
feature engineering 方面,我有對於兩個 kaggle 比賽上,寫篇文章介紹我的方法
https://github.com/f496328mm/kaggle_Grupo_Bimbo_Inventory_Demand
https://github.com/f496328mm/kaggle_Bosch_Production_Line_Performance
我認為這只能靠經驗累積,基本上,類似的問題,feature engineering 都很類似
這就是為什麼要找 feature,調參數很沒意義
不過我也有經歷過初學者,陷入調參數的困境中,最好不要這樣,
但是會這樣很正常
有興趣可以合作玩玩看,我沒碰過的問題,我也不懂 feature,這需要花費很多時間,
所以蠻希望找人合作
※ 編輯: f496328mm (36.231.224.18), 09/03/2017 16:37:07
推 ppc: 感謝你 我查了一下關於討論feature engineering的文章 09/05 22:42
→ ppc: 跟你說的一樣 看來先多在Kaggle上邊練習邊看別人的做法累積經 09/05 22:42
→ ppc: 驗 09/05 22:43
→ ppc: 是初學者比較好的做法 09/05 22:43