Re: [請益] 如何踏入Data Mining/Engineers領域

作者DrTech (科技博士)

看板Soft_Job

標題Re: [請益] 如何踏入Data Mining/Engineers領域

時間Thu Jul 24 21:23:30 2014

※ 引述《robin112 (Robin)》之銘言： : 小弟四中統計研究所應屆畢業， : 論文內容主要討論logitudinal data的clustering， : 會想踏入這個領域主要還是因為發現自己對於資料分析還是樂在其中XD : 基本統計工具都還算可以(regression,GLM,multivariate analysis)， : 求學階段也有使用過這些工具分析過一些小的raw data。 : 主要的語言工具為R(loop,array,function etc.) : 可以將大部份知道邏輯或步驟的統計方法寫出來， : C++有摸過但不熟悉，目前正在跟著codecademy學Python， : 目的是想作一些蜘蛛抓data下來，再進行後續分析來玩。 : 這一個多月在網路上投了不少Data Mining相關的履歷， : 有的職缺感覺條件蠻相符的卻像石沉大海一般， : 有些說可以培訓或接受新鮮人也沒有回應， : 或是覺得我有潛力但還是不符要求。 : 看著身邊不少同學都已經找到好工作了自己也開始緊張， : 爬文也了解自己的弱勢在於如何從資料庫中抓data(ex:SQL)， : 以及現在流行的Hadoop及MapReduce等big data的技術， : 但我疑惑的是，對業界而言是否不會這些技術就無法踏入? : 因此想來請各位給我一點建議，謝謝! 最近我注意到相關職缺的公司有：廣告分析: Vpon、Appier 電信業: 遠傳、台灣大哥大電子業: 台達電、中強光電、和碩聯合財團法人: III、ITRI 資訊服務: Trend、HTC 其他: 藍科數位、新蛋有些是要找有經驗的人，有些是可接受新鮮人。工作機會應該是不少。我看了您的敘述，感覺您最缺乏的就是一完整解決方案的描述，例如: 一個商業需求出現後，資料擷取你都怎做，如何淨化資料，因為該需求如何選擇分析方式，分析方式你怎麼依據特定行業做調整，產生結果如何呈顯，如何驗證資料...等等的完整描述。若你有相關經驗，應該於履歷把這整個Solution簡短的寫出來。不要斷斷續續地說你會什麼工具或分析方法而已。我想你碩士論文應該都有做，只怕你沒有表現出來。再來是工具部分，找工作時，請大膽的說你會 C++/Python，若真的被考倒，盡力表達所知即可，不用怕考太差。程式語言都可以工作時邊做邊學的。最後，建議您先專注於能獨立完成一個解決方案的技術，先不要管資料量大小。例如你的解決方案需要SQL就去學，你的解決方案缺Python 就去學。你的解決方案缺 Machine Learning的方法論就去學。但先暫時不要管什麼 Hadoop 與 Big Data。對你現在的狀況而言玩 Big Data的技術 C/P值太低了。例如，MapReduce對我來說一直都是C/P值很低工具(雖然我用他解決了一些問題) 但 MapReduce 只是一個我處理資料時，批次分析的工具"之一"，可能某些專案用RDBMS來做就好，某些專案用NoSQL做就好。另外現在國外大廠(例如:Hortonworks、Cloudera、MapR)，都很邪惡。為了自己的利益不斷炒作新工具。例如一開始炒 MapReduce、Mahout 炒到沒利益就開始炒各種 Interative query、searching、最近又為了利益不斷的說 MapReduce 有多爛。用各種方式，想把已經很成熟，沒利益空間的企業資料分析生態系統大賺一筆。其實當初 MapReduce 剛出來時，猛炒傳統分析方式該淘汰了，就有學者跳出來說，這種批次處理方式，大量存取I/O的方式不就是在資料庫技術還沒出來時的方式嗎? 分散式系統也是1990年就有的東西嗎? 怎麼在炒作這種倒退了20年技術的東西? 結果大家沸沸揚揚的吸金了幾年後，果然MapReduce就逐漸被邊緣化了。至於新的替代技術，目前看起來也是商業炒作居多，誰知道現在的商業炒作(例如:Spark)，會不會主宰未來發展呢，所以我對一般人的建議還是，多累積資料分析的專案經驗，即使資料量少也沒關係。即使分析的結果不如預期也沒關係，這都可以持續更新到履歷表。反而是Big Data，不是現在您該學習的重點。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.146.69.104 ※ 文章網址: http://www.ptt.cc/bbs/Soft_Job/M.1406208213.A.33F.html

推 cpper:良心的建議，不要去 Vpon 和 I T R I 07/24 21:35

→ cpper:除非你認為剛開始就業的五年不重要那就去吧... 07/24 21:36

推 glaci:樓上有掛嗎? 07/24 21:38

→ infinitlee:一樓有掛嗎 @@ 07/24 21:46

推 kangta0819:除了一樓說的那兩個以外,還有... 07/24 21:58

推 appleboy46:Vpon 最近不是還蠻有名的？募資 07/24 22:31

→ YishengSu:最近一堆人在找這類的職缺聽到BIG DATA眼睛都亮了 07/24 22:38

推 minikai:Spark 也是用MapReduce的架構在分散式運算底層更是用 07/24 22:48

→ minikai:HDFS去當檔案系統 Hadoop還是有它的可取之處 07/24 22:50

→ minikai:要說MapReduce被邊緣化嗎??? 我覺得還是可以去學 07/24 22:52

→ minikai:不過原PO還是要先以加強程式設計的能力為優先 07/24 22:53

推 ckaha:怎麼不提金融業和醫療業呢? 07/24 23:22

推 lovdkkkk:有認識的在 Vpon 薪水還不錯 (80k+/月) 07/24 23:29

推 robin112:謝謝Drtech大及各位的幫忙，我想我知道短時間內該怎麼作 07/24 23:57

→ robin112:了，我會把我近幾年所作的資料分析報告作一個整理，再來 07/24 23:57

→ robin112:投履歷，還是謝謝大家這兩天的幫忙！感激不盡！之後如果 07/24 23:57

→ robin112:有獲得面試或offer的機會再將經驗分享給板友們！ 07/24 23:57

推 timTan:講炒作有點太過了，就是出現了比 map reduce 好的東西阿 07/25 00:29

推 damody:中華電也有好幾個team在做啊，中華電底層都自己做， 07/25 01:16

→ damody:整個環境到tools全部自己來，又有大量電信網路資料整個OP 07/25 01:17

推 neo5277:以前在金融業一陣子，自己是覺得要做這個拿什麼資料做研究 07/25 01:38

→ neo5277:跟什麼項目比，有結果後怎麼建立模型這樣比較重要 07/25 01:39

→ neo5277:其他都可以練，但是上述那些又不是學校統計教的都偏應用了 07/25 01:39

推 dennis2030:MapReduce沒這麼一文不值吧，速度不快，但coding需要花 07/25 01:40

→ dennis2030:的effort的確減少很多，很多都幫你做完了 07/25 01:41

→ dryman:Hadoop MapReduce的優勢在於throughput很大 07/26 07:46

→ dryman:我們公司用MR處理每日TB等級的資料用得很順手，沒到邊緣 07/26 07:47

→ dryman:化那麼誇張 07/26 07:47

推 kimiyuan:前陣子去某v面試，主管26中庸， HR非常專業！讓我開完薪 07/26 11:55

→ kimiyuan:資就請客了。(怕有手尾跟，內容僅供參考自行解讀) 07/26 11:55

推 paaju:那個主管不是26，他是華僑 07/28 09:50