看板 studyabroad 關於我們 聯絡資訊
前面強者都說得很有道理,在下稍微從CS的角度補充 故事是這樣的 1.量太多了 Google(Amazon、Yahoo!...) 每天所收到的查詢量太多沒辦法存全部,只能存部分 (也可以是滑鼠點擊、Session) 知道每天到底有多少不同的查詢非常重要 (許多進階的分析都需要Count distinct) 於是想辦法"抽樣來代表母體" 抽樣的方法是Hash Function成010101的位元 Google在2005年就嘗試解決這樣的問題(Min-Count) 2.計算太複雜了 拿迴歸來說,統計學用的是Least Square CS本來用Gradient Descent,因為資料太大改用Stochastic Gradient Descent 把演算法寫成平行運算版本(Hadoop),交給cluster跑 另外,實作時也可能會發生: 理論說,計算獨立事件一起發生的機率,相乘所有事件發生的機率 實際寫程式才發現事件太多,因電腦無法表示到該小數位,相乘機率全是0 所以取Math.log之後,把相乘變成相加,電腦就能表示了 講了許多CS觀點 在下也沒有認為CS面對大量數據時比較先進 而是統計與CS發威在價值鏈不同的地方(前面強者有分享) 呼應前面強者所提,Stanford有很好的資源 它的開放課程Mining of Massive Datasets 教授許多關於資料太大,Memory不夠用的演算法 https://www.coursera.org/course/mmds Univ. of Washinton也是很好的選擇 它的開放課程Data Science探討許多的實作(MapReduce, Pregel) https://www.coursera.org/course/datasci 也可以看看相關工作所要求的技能 http://www.kdnuggets.com/jobs/index.html 就選你所愛,愛你所選囉 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 79.197.209.160 ※ 文章網址: https://www.ptt.cc/bbs/studyabroad/M.1422829966.A.E01.html
drajan: 推最後一句, 最近很多諮詢的對象根本不知道自己喜不喜歡就 02/02 07:28
drajan: 說想當data scientist, 連工作內容在幹嘛都不知道.. 02/02 07:28
drajan: 跟管院一窩蜂想擠IB consulting一個樣= = 02/02 07:29
lenux: 跟樓上看法一樣 一窩蜂CS/Data Science 盲從 02/02 08:37
yushiung: 推原po專業 02/02 10:41
Lumice: data不夠多又做不出東西來,唉 02/02 12:09
frank11118: 推 謝分享 02/02 13:05
aknr5566: 專業推 02/02 13:45
aknr5566: 也推一樓 XD 02/02 13:46
SatGod: 感謝CS角度的專業分享! 02/02 15:31
branburg: 原PO專業!的確許多技術很早就存在了。 02/02 15:47
haley06: 專業分析推 03/18 11:48