Re: [問題] 想走Big Data的選系困擾

作者vity (逍遙盃-佛得)

看板studyabroad

標題Re: [問題] 想走Big Data的選系困擾

時間Mon Feb 2 06:32:40 2015

前面強者都說得很有道理，在下稍微從CS的角度補充故事是這樣的 1.量太多了 Google(Amazon、Yahoo!...) 每天所收到的查詢量太多沒辦法存全部，只能存部分 (也可以是滑鼠點擊、Session) 知道每天到底有多少不同的查詢非常重要 (許多進階的分析都需要Count distinct) 於是想辦法"抽樣來代表母體" 抽樣的方法是Hash Function成010101的位元 Google在2005年就嘗試解決這樣的問題(Min-Count) 2.計算太複雜了拿迴歸來說，統計學用的是Least Square CS本來用Gradient Descent，因為資料太大改用Stochastic Gradient Descent 把演算法寫成平行運算版本(Hadoop)，交給cluster跑另外，實作時也可能會發生: 理論說，計算獨立事件一起發生的機率，相乘所有事件發生的機率實際寫程式才發現事件太多，因電腦無法表示到該小數位，相乘機率全是0 所以取Math.log之後，把相乘變成相加，電腦就能表示了講了許多CS觀點在下也沒有認為CS面對大量數據時比較先進而是統計與CS發威在價值鏈不同的地方(前面強者有分享) 呼應前面強者所提，Stanford有很好的資源它的開放課程Mining of Massive Datasets 教授許多關於資料太大，Memory不夠用的演算法 https://www.coursera.org/course/mmds Univ. of Washinton也是很好的選擇它的開放課程Data Science探討許多的實作(MapReduce, Pregel) https://www.coursera.org/course/datasci 也可以看看相關工作所要求的技能 http://www.kdnuggets.com/jobs/index.html 就選你所愛，愛你所選囉 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 79.197.209.160 ※ 文章網址: https://www.ptt.cc/bbs/studyabroad/M.1422829966.A.E01.html

→ drajan: 推最後一句, 最近很多諮詢的對象根本不知道自己喜不喜歡就 02/02 07:28

→ drajan: 說想當data scientist, 連工作內容在幹嘛都不知道.. 02/02 07:28

→ drajan: 跟管院一窩蜂想擠IB consulting一個樣= = 02/02 07:29

→ lenux: 跟樓上看法一樣一窩蜂CS/Data Science 盲從 02/02 08:37

推 yushiung: 推原po專業 02/02 10:41

→ Lumice: data不夠多又做不出東西來，唉 02/02 12:09

推 frank11118: 推謝分享 02/02 13:05

推 aknr5566: 專業推 02/02 13:45

→ aknr5566: 也推一樓 XD 02/02 13:46

推 SatGod: 感謝CS角度的專業分享！ 02/02 15:31

推 branburg: 原PO專業！的確許多技術很早就存在了。 02/02 15:47

推 haley06: 專業分析推 03/18 11:48