作者dryman (dryman)
看板Soft_Job
標題Re: [請益] Big data(ML)與Robotics領域在台灣的發展
時間Mon May 26 01:37:20 2014
現在台灣許多人對big data的認知似乎把big data跟data science混在一起了
連張善政都說要用big data來當作教育方針參考...
如果你的資料真的是big data等級
那從原始data到真的能進行分析,有一段非常長的距離
如果你的資料不需要處理就能進行分析,那他的量絕對沒有到big data那麼大
我現在在一家線上廣告公司 (不是google)工作
工作剛好就是hadoop platform engineer
這家公司每日進來的raw data有好幾TB
我們這組的主要工作就是除去重複的資料
將相關的event放在一起(ad impression / ad click)
產生可以向客戶收費的報表,封存等等
封存後的資料,才有data scientist去試著撈資料作研究
通常撈的只能是很小一塊的資料,因為量真的太大了...
在傳統的database engineering中,就是所謂的ETL (Extract Transform Load)
* * *
我想表達的是,big data engineer != data science
儘管我自己也有學一些ML相關的課,但在big data上面目前無暇用到
同理,想做data science不需要是 big data
要考慮的是,data science從研究到能推出產品的週期很長
要看公司願不願意投資長線研發這類型的產品
我覺得這才是在台灣覓職所需要考慮的主要因素
* * *
最後想吐槽一點小事情
包含美國,很多data scientist都想學hadoop
但這真的不必要
因為他們最後都是在select ... from table;
連sum/count都沒有用
都是把資料用select拿出來後再自己用python去count
這樣能處理的資料是能有多大= ="
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 108.205.154.164
※ 文章網址: http://www.ptt.cc/bbs/Soft_Job/M.1401039442.A.C88.html
推 damody:請問是台灣的公司嗎? 05/26 02:00
→ damody:看上一篇文 看來不是 05/26 02:00
推 pttnews:sum/count 是因為DB已經很累了,就別再操他了 05/26 10:03
→ dryman:我是指從Hadoop中拿資料。map reduce最擅長的就是sum/count 05/26 11:07
推 gmoz:用hive,pig或impala拿出來又用自己程式算的意思@@? 05/26 12:55
→ MOONY135:台灣目前的感覺就是想跟風... 05/26 15:39
推 saladim:dry大隱版了 好可惜 我都在裡面挖文章學習 xdd 05/26 18:01
→ dryman:@gmoz 我看到很多人這樣做 05/26 21:15
→ dryman:不過回頭想想可能是prototype演算法階段也只能這樣做吧 05/26 21:16
推 ckaha:還好拉, 還是有在做sum count group by case when 05/26 22:52
→ ckaha:而且大部分簡單的貝式就能推出很多有用的資訊囉~ 05/26 22:53
→ DrTech:台灣有自己的一套,不信去104搜尋hadoop吧 05/27 20:59