看板 Soft_Job 關於我們 聯絡資訊
前面有幾篇說,拉一拉就好,連阿罵都會用..... 這也太扯了,就像 excel 、 spss,也是拉一拉就好了, 那寫 R、Python 的是??? 寫 code 就是有他的強項阿 況且你還要連 SQL ,甚至從 hadoop 撈 data ,阿罵這麼強?? 就不講 data cleaning 了 確實目前工具很完善,隨便都能做分析,做的很爛而已, 沒做 feature engineering 的分析,頂多發碩論混畢業而已 feature engineering 絕對無法使用拖拉介面做出來, 以我做 Kaggle 上的 庫存銷售預測、購物籃分析、生產線分析 來說 feature engineering 完全不同,這需要一些經驗, 特別是,書上都不會教你這些,只能靠實作累積經驗 大家都用相同的 model,憑什麼比別人好? 在 Kaggle 上這點就很明顯, 你的 feature engineering 怎麼做才是重點, 甚至是做 n-fold 去確保模型穩定,你不是靠運氣選到好的 testing data 做 feature selection 找出關鍵變數,找出哪個製程影響最大、出問題, 再回去修正你的機台 用 ML 分析 data 也只是 data mining 的一小部分, 你要如何視覺化呈現?套件很多沒錯,那你要如何選擇?要如何解釋? 不是分析完就沒事了, Kaggle 比較著重在分析,但事前的 data 收集、data cleaning 所花的時間, 是分析的兩三倍以上,原始 data 是非常髒的, 不同部門沒整合就不用說了,變數命名不同,日期格式不同等等,會弄到崩潰 最後,單就 Kaggle 來說,依然有非常多企業丟出 data,丟出問題要你解決, 特別是目前 ML model 還在進化中, 最近 5 年出現的 XGB 打趴一堆 RF、SVM、GB 等, 同樣問題,過去無法商業化,因為模型改進,未來有可能達到商業化的程度 比較可惜的是,台灣真正在做的很少,學校就不用講了,一堆騙計畫的, 不少研究生也說自己做過 ML ,用 SVM ,卻連 Kernel 都不知道, 遇到 missing value 怎麼處理? 特別是學校碰到的 data 都只是玩玩罷了,data 小就算了, 有些做二元分類連 imbalance 也不懂 另外國外這方面的職缺還是不少 在 kaggle 提供相關徵才中,就有超過 20 家公司需要這方面的人才 https://www.kaggle.com/jobs 如果你只會拉一拉,調調參數,那不叫做資料科學 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.90.122 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1503938180.A.F62.html
celestialgod: 正名一下 是eature engineering... 08/29 00:38
感謝
celestialgod: /f 08/29 00:39
Murasaki0110: 一個學過小畫家就說幹嘛學photoshop的概念 08/29 00:41
vu04y94: 為何討論的方向偏向data mining了? 08/29 01:18
lukelove: @@ 一直搞不清楚DM 跟 ML 的分界, 板上 比kaggle 的人這 08/29 01:20
目前 DM 一部分的核心就是 ML ,是有點離題拉 即使單純寫新方法,也並非 google 那些大企業, 拿 XGB 舉例,作者是個在國外念博士的中國人,非數學相關科系, 因為這些理論都已經發展十幾年了,要怎麼有效率的實作才是重點
lukelove: 摸多, 想必如outrunner master等級的人也很多 08/29 01:21
vu04y94: 我的意思是還有CV NLP之類的 尤其台灣作多媒體的公司不 08/29 01:25
vu04y94: 少啊 08/29 01:25
popo14777: 好像真正如大大所說的,都在騙計畫..很多碩論都有SVM 08/29 01:45
目前 DL 很夯 更多拿 AI 去騙計畫的 好像什麼都要跟 AI 扯上邊
hsnuyi: 原PO你是數學出生的吧 很多CS的都沒你清楚啊XDD 08/29 02:17
hsnuyi: 講個笑話 為了跟上潮流 政府計畫名稱每幾年就要改個一次 08/29 02:21
hsnuyi: 一開始是智慧型XX 前幾年改成前瞻XX 現在則變成了人工智慧 08/29 02:21
hsnuyi: XX XDDD 08/29 02:21
對阿我數學系的,目前也不少數學系教授在做這方面 CS 領域很廣,所以做這方面的比較少人 就我所知,台大一些 CS 的打 Kaggle 很強, 其實 data mining 、ML、DL 這方面,資工課程比較完善, 像是台大李宏毅的 ML 線上課程,林軒田,甚至是剛回國的陳縕儂( 超正教授XD ) 都是這方面的專家,而且都不是數學背景喔,所以資工做這塊不是問題
del680202: 外國外這方面的職缺還是不少 << 標題在問台灣來著 08/29 07:27
angusyu: 結論就是台灣沒適合的職缺 08/29 09:05
應該說 這塊連國外都還在發展中 XGB的作者是個在美國念博士的中國人 所以並非那些大企業在玩 而台灣是有這方面的人 就看台灣未來的走向了 台灣未來對這塊的需求又是如何?? 其實這塊很多都在發展中 是有機會走出自己的一條路的 ※ 編輯: f496328mm (114.36.63.197), 08/29/2017 09:34:52
ken90242: 這幾篇弄的我好亂 08/29 09:52
senjor: 我同意,我不認同的只是前幾篇有人提到不會寫自己的工具, 08/29 09:57
senjor: 只會拿別人工具來應用在案例上的人沒出路,這其實不太合理 08/29 09:57
ckp4131025: 以後可能會分工成,model廠商和應用廠商吧,我覺得會 08/29 10:02
ckp4131025: 類似eda,ide那種感覺 08/29 10:02
exthrash: 這篇才是真正在業界的人會po的心得 08/29 11:02
exthrash: 很多學生以為打打Kaggle 就跟實際工作差不多 08/29 11:03
exthrash: 真正工作上data cleaning/preprocessing佔了超多時間 08/29 11:03
exthrash: 另外 懂數學 會讓你調參數事半功倍 08/29 11:10
jason91818: 推 08/29 11:10
Telemio: 推 真材實料心得 08/29 12:25
lukelove: 祝福大大早日 master 08/29 12:31
gogogogo3333: 陳天奇 那種等級的 已經超出一般人境界了... 08/29 12:32
lukelove: 看看陳天奇的論文 數學推論成份也很高 08/29 12:35
主要想說的是,不是大公司才能做,而且他非數學相關科系
say29217074: 同意做過svm不知道KEREL那段qq 08/29 12:48
stosto: 做SVM不知道kernel? 08/29 17:55
某部分,不敢說大部分,做這方面的碩士生,使用 default 參數是很常見的, 所以當然不會知道 kernel ,( 不是學店生喔 )
stosto: 另外使用很多演算法都要自己創model出來 08/29 17:55
stosto: 那才是真的演算法核心 08/29 17:56
這點是沒錯,大公司應該要分部門,專門研究這塊的, 不過一般人,使用現成 model,做好其他部分就很厲害了,畢竟 model 只是其中一部分 自己開發 model 這點,在 Kaggle 上也有這種情形,拿最近結束的比賽 Instacart Market Basket Analysis 來說 就有參賽者開發出 arboretum - Gradient Boosting on GPU 當然成果是不錯的,另外 XGB 也是有 GPU 版本,未來 GPU 會被大大利用
searcher: 用autoML調參數呢? 08/29 19:58
searcher: 連用哪個演算法也不用選了 08/29 20:00
參數不會是重點,重點還是在 feature, 應該這樣講,參數大家都會調,那憑什麼比其他人強??
chocopie: 我是看過很多報期末專案,SVM或RF之類的跑一跑,數據列 08/29 20:43
chocopie: 一個小表格,好,結束。 08/29 20:43
學校很多都這樣阿,幾個方法比較一下,因為沒有壓力,做不好沒差 有些小細節更是要注意, 例如比較時,要設 seed ,相同的 training data、testing data, 不然沒意義
chocopie: 然後一學期的愉快課程又結束了XD 08/29 20:44
chocopie: 摸完後回去繼續做自己的前端/後端 08/29 20:44
searcher: 用競賽的角度來說當然是比誰最厲害 08/29 21:06
searcher: 但不是所有的情況都是這樣 08/29 21:06
angusyu: 我只想說,這世界有太多人瞧不起工具應用 08/29 22:33
howhowyang: 真的!碩班做計畫收來的資料真的很髒,preprocessing 08/30 02:21
howhowyang: 超花時間,不過跟大大接觸過的資料比起來應該也只是 08/30 02:21
howhowyang: 小兒科 08/30 02:21
senjor: 大家寫的程式語言也不是自己開發的,這樣程式怎麼寫的好(X 08/30 09:58
lspci: 現在一堆腦殘會算平均標準差就自詡資料科學家了 08/31 03:06
ppc: 這篇寫得很好ㄟ 09/02 18:37
ppc: 剛碰Kaggle 真的覺得feature engineering很重要 請問有推薦 09/02 18:38
ppc: 的課程可以看嗎 我是打算先看Johns Hopkins的Data Science 09/02 18:39
ppc: 感謝 09/02 18:39
ppc: 稍微喵一下感覺這課程好像不怎樣@@ 09/02 21:50
我目前沒看過有教 feature engineering 的線上課程,可能這太細了,又是case by case 單就 ML 的話,台大李弘毅的不錯,youtube 上有 我剛開始學,是直接打 Kaggle ,學習別人的方法,並沒有上線上課程, Kaggle 的 kernel 很有幫助,大家會分享自己的 code 與想法, code 不難讀,慢慢看累積經驗,建議你多做幾個題目,過期的比賽也沒關係 不過排名至少要有 top 10% rank feature engineering 方面,我有對於兩個 kaggle 比賽上,寫篇文章介紹我的方法 https://github.com/f496328mm/kaggle_Grupo_Bimbo_Inventory_Demand https://github.com/f496328mm/kaggle_Bosch_Production_Line_Performance 我認為這只能靠經驗累積,基本上,類似的問題,feature engineering 都很類似 這就是為什麼要找 feature,調參數很沒意義 不過我也有經歷過初學者,陷入調參數的困境中,最好不要這樣, 但是會這樣很正常 有興趣可以合作玩玩看,我沒碰過的問題,我也不懂 feature,這需要花費很多時間, 所以蠻希望找人合作 ※ 編輯: f496328mm (36.231.224.18), 09/03/2017 16:37:07
ppc: 感謝你 我查了一下關於討論feature engineering的文章 09/05 22:42
ppc: 跟你說的一樣 看來先多在Kaggle上邊練習邊看別人的做法累積經 09/05 22:42
ppc: 驗 09/05 22:43
ppc: 是初學者比較好的做法 09/05 22:43