作者vity (逍遙盃-佛得)
看板studyabroad
標題Re: [問題] 想走Big Data的選系困擾
時間Mon Feb 2 06:32:40 2015
前面強者都說得很有道理,在下稍微從CS的角度補充
故事是這樣的
1.量太多了
Google(Amazon、Yahoo!...)
每天所收到的查詢量太多沒辦法存全部,只能存部分
(也可以是滑鼠點擊、Session)
知道每天到底有多少不同的查詢非常重要
(許多進階的分析都需要Count distinct)
於是想辦法"抽樣來代表母體"
抽樣的方法是Hash Function成010101的位元
Google在2005年就嘗試解決這樣的問題(Min-Count)
2.計算太複雜了
拿迴歸來說,統計學用的是Least Square
CS本來用Gradient Descent,因為資料太大改用Stochastic Gradient Descent
把演算法寫成平行運算版本(Hadoop),交給cluster跑
另外,實作時也可能會發生:
理論說,計算獨立事件一起發生的機率,相乘所有事件發生的機率
實際寫程式才發現事件太多,因電腦無法表示到該小數位,相乘機率全是0
所以取Math.log之後,把相乘變成相加,電腦就能表示了
講了許多CS觀點
在下也沒有認為CS面對大量數據時比較先進
而是統計與CS發威在價值鏈不同的地方(前面強者有分享)
呼應前面強者所提,Stanford有很好的資源
它的開放課程Mining of Massive Datasets
教授許多關於資料太大,Memory不夠用的演算法
https://www.coursera.org/course/mmds
Univ. of Washinton也是很好的選擇
它的開放課程Data Science探討許多的實作(MapReduce, Pregel)
https://www.coursera.org/course/datasci
也可以看看相關工作所要求的技能
http://www.kdnuggets.com/jobs/index.html
就選你所愛,愛你所選囉
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 79.197.209.160
※ 文章網址: https://www.ptt.cc/bbs/studyabroad/M.1422829966.A.E01.html
→ drajan: 推最後一句, 最近很多諮詢的對象根本不知道自己喜不喜歡就 02/02 07:28
→ drajan: 說想當data scientist, 連工作內容在幹嘛都不知道.. 02/02 07:28
→ drajan: 跟管院一窩蜂想擠IB consulting一個樣= = 02/02 07:29
→ lenux: 跟樓上看法一樣 一窩蜂CS/Data Science 盲從 02/02 08:37
推 yushiung: 推原po專業 02/02 10:41
→ Lumice: data不夠多又做不出東西來,唉 02/02 12:09
推 frank11118: 推 謝分享 02/02 13:05
推 aknr5566: 專業推 02/02 13:45
→ aknr5566: 也推一樓 XD 02/02 13:46
推 SatGod: 感謝CS角度的專業分享! 02/02 15:31
推 branburg: 原PO專業!的確許多技術很早就存在了。 02/02 15:47
推 haley06: 專業分析推 03/18 11:48