Re: [問題] 統計與資工在資料科學的差異

作者allen1985 (我要低調拯救形象)

看板DataScience

標題Re: [問題] 統計與資工在資料科學的差異

時間Sun Jun 14 11:57:11 2020

也許我跟前一篇神人有共同神人朋友小弟我是純統計人大學碩士博士都是念統計博士畢業後在一家研究機構擔任 Research Scientist - Data Science 工作快滿四年雖然只有在一間公司但可以稍微分享我公司的情況首先不只我的背景是純統計我的研究領域是實驗設計電腦實驗可以說離ML DL 非常遙遠因為在我的世界裡樣本數超過50個都要偷笑說個題外話之前幫一家做大型電器的公司做分析 42個樣本花了1 million (美金) 只是想先對統計人說在資料科學的世界不是單純的只有大數據上班後我選擇了走向比較偏ML DL的路目前主要是在做NLP相關的案子統計人學習ML 其實是不難的因為大部分的ML 其實在統計的課程裡都有提過也許著重的方向不一樣我知道現在沒人在管殘差 normality test等等如果單純的只是要找尋適當地ML DL方法來分析資料有統計的背景很快就可以抓到這些方法的精髓你會說資工 CS的人這些也都會啊那統計的人優勢在哪裡我認為是資料分析上對數字的敏感度以及找出影響的因子我的部門裡面大概是5個統計博士 1個應數博士 3個EE or CSE博士一堆統計CS碩士統計人通常比較能夠回答為什麼會這樣或者當預設的方法行不通的時候統計人比較能夠想到其他做法而不是ML 每一個方法是試一遍用Precision/Recall/F1 來決定使用哪個模型還記得一個小案子一個別的部門的主管跟Texas A&M的博士生合作用LSTM分析一組 Time series 的資料預測結果非常糟糕但他們找不出原因因為LSTM基本上算DL裡面對Time series default 的方法了那他們做了 LSTM不行就試試RNN 再試ANN 但其實我只做了一件小事情就解決了問題畫圖統計老師最常說的一句話拿到資料先畫圖而不是先把資料丟進模型結論是哪組資料有四個outputs 有兩個跟另外兩個根本完全不一樣那是一組石油的資料灌水進去洞裡面希望最多石油噴出來其實有兩個production wells 最後被判定是有問題的 garbage in garbage out 另外最後老闆跟Texam A&M最喜歡的模型是 Linear model with constraints 因為加了constrints的模型可以符合其物理意義而這是LSTM, RNN, ANN做不到的 ML DL的方法真的很厲害我現在每天都在用BERT, XLNet等models 我都覺得這些models出來一定讓很多人失業我們公司之前NLP model 都是請一家專門的公司做的一年要付他們$16,000 license fee 但在BERT出來後三個月我們自己做的就outperform 他們的NLP models 用一樣的training data 更何況我們team 還沒有人是有NLP背景的當然以現在工作上需要的東西來看過去的統計訓練我認為在 data base 跟 data structure 的方法是真的比較欠缺的但在中大型的公司可能也不是問題我們公司每個案子基本上都是統計跟CS的人配合 (在我們公司都叫DS) 他們負責抓資料建立Web-service 而我們負責模型的部分然後都被抱怨寫的code style 不對而我們都抱怨他們被他們改過超難debug 結論很多人認為資工比較好統計也不差的給統計人一點信心只能說資料科學家這個名詞其實包含的很多種不同的工作型態不同領域的人在不同的行業會有其優勢而我認為要在資料科學家這領域生存最重要的是不斷的學習跟上模型進步的腳步小小心得分享 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.31.7.190 (美國) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1592107034.A.B25.html ※ 編輯: allen1985 (98.31.7.190 美國), 06/14/2020 12:00:33

推 mistrust0525: 推！ 06/14 12:34

推 kokolotl: 現在我也都直接拿pre train的來用 06/14 13:38

→ kokolotl: 方便太多了.. 06/14 13:38

推 filialpiety: 推～ 06/14 13:47

推 ar851060: 推，但怎麼感覺進DS的話，統計人都要到博士？ 06/14 14:14 其實我自己也常在想這個問題因為原本的生涯規劃是要走學術界一定得念博士所以一路走來也沒想太多大學畢業考碩士班碩士畢業當兵中研院研究助理出國博士班上班以後反而常在想如果當初我就想走業界是不是不需要浪費五年拿博士五年可以賺很多錢的只能分享在我公司看到的情況對碩士進來的要求就是在一個team裡面主要做dirty work的人所以8成的時間可能都在R/Python 對博士進來的要求也是做dirty work 大概6成的時間也都在R/Python/SAS/Matlab 但對博士會要求要有想法業界不需要你從理論發展出一個新發法但需要很快地找出哪個方法可能可以用而且有東西讓你用絕對不可能有budget 像博士班一樣看到一篇paper 花幾個月的時間去implement it 另外就是常常在把A, B, C 方法結合起來變成一個新的方法你說這要求碩士畢業做不到嗎其實很多人是可以的差別就在於有沒有那個機會以及有沒有那個習慣機會是說 PM可能有問題時會習慣的問博士level的人所以機會是要給準備好的人不管什麼學歷只要你能一直在開會的時候一直提出有用的建議很快你就會進入決策中心而不是只是單純寫程式的人那博士班的好處呢我個人覺得博士班對於獨立研究的訓練還是要有其幫助的尤其遇到傳統方法結果不好的時候博士level的通常比較能快速地找出解決方案大家都知道資料分析最不花時間的就是套用package算出答案想方法整理資料遠比最後一塊算答案的難在美國大部分統計碩士是不寫論文的所以相對來說只有碩士畢業的人通常沒經歷過 paper的摧殘以及如何在幾分鐘內就把paper丟掉就算title再怎麼像是完美地符合你的需要不用浪費時間去了解用不到的方法

推 andy086: 推推，好文！ 06/14 16:57

推 fsuhcikt1003: 推 06/14 17:49

推 geminitw: 推 06/14 20:48

※ 編輯: allen1985 (98.31.7.190 美國), 06/14/2020 22:02:15

推 LincolnBoy: 推 06/14 22:31

推 liangniko: 推推 06/15 00:43

推 hippo130: 推 06/15 01:06

推 bowin: 推 06/15 03:46

推 AmibaGelos: 推推好奇問1M的case可以改用transfer learning嗎? 06/15 11:38

不敢說不可能但感覺機會不大 transfer learning 也要先有資料train一個模型啊後來我們的做法是因為這個實驗是有simulator的雖然客戶也不相信simulator的準確率但經過一些比較認為simulator 還是有其效果最後是用Bayesian Calibration Model 來利用真實物理實驗來校正simulator 而用校正後的模型來做預測並找出最佳解這模型是based on Gaussian process 可能做空間統計或者電腦實驗的人才會聽過 ※ 編輯: allen1985 (98.31.7.190 美國), 06/15/2020 11:55:07

推 purpleboy01: 推推 06/15 14:40

推 AmibaGelos: 也是是偶耍蠢惹lol 用GP至少知道每個點都被utilize 06/15 16:14

→ AmibaGelos: w/o bias 不像transfer learning還得有個前置問題 06/15 16:14

推 st1009: 推推 06/15 17:24

推 bearching: 推請問linear model w/ constraints 是ridge LASSO E 06/15 22:32

→ bearching: lastic net 這樣的regularized model嗎？ 06/15 22:32

沒這麼複雜喔簡單地一個概念灌多少水進去injection wells 理論上就有多少水從production wells 出來在這實驗裡有五個injection wells 四個production wells 我們把迴歸的coefficients 想像成每一個injection well 會貢獻到每一個 production well的比例所以constraints 是 sum of coefficients for each injection well = 1 每個coefficients 是0-1的值至於怎麼fit這樣的迴歸模型想想了喔！ ※ 編輯: allen1985 (98.31.7.190 美國), 06/15/2020 23:12:27 ※ 編輯: allen1985 (98.31.7.190 美國), 06/15/2020 23:23:41

推 LibrainAir: 推 06/16 00:44

推 patrickchou: 獲益良多，推好文 06/16 07:58

推 ChenYinYin: 推 06/16 09:57

推 blackmaninEE: 推好文 06/16 14:17

推 hahaxd78: 推 06/16 18:49

推 tacoking: 好文推 06/16 19:06

推 ken83715: 推 06/18 19:46

推 preed: 好文 06/22 20:25

→ rayu: 感謝分享！ 06/25 17:54

推 q8977452: 推 06/25 20:19

推 joe120519: 推 06/26 12:54

推 azzc1031: 好猛 07/01 00:58

推 ilovejesus: 推 07/09 17:52

推 NOYUYU: 推 04/22 01:45