看板 Soft_Job 關於我們 聯絡資訊
原文: http://tinyurl.com/c32av9s 大陸譯文: http://tinyurl.com/cmc4wev 簡單的說, 統計學沒跟你說過: 資料"量"越大, 統計結果越準. -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 116.59.241.171 ※ 編輯: Lordaeron 來自: 116.59.241.171 (05/14 15:23)
hilorrk:Google不能不存頁面index,facebook不能漏存用戶訊息... 05/14 16:27
hilorrk:還有很多針對使用者客製的服務都是不能用 sample 的 05/14 16:28
piss:Big data 跟cloud一樣是行銷手法,並非新發明新需求 05/14 16:47
francej:台灣得先搞出個Google or FB才需要煩惱bigdata吧 05/14 19:18
francej:不然真的是唬爛成分居多囉 手上的資料量明明用10年前的 05/14 19:19
francej:Oracle DB就可以跑得好好的 根本沒必要去跟人家趕流行 05/14 19:20
CGary:Nobody ever got fired for buying a cluster 這篇文章說了 05/14 23:51
CGary:你幾乎都不需要大數據處理~ 但他引用這篇文章根本誤導人... 05/14 23:52
CGary:512 GB Memory 用來類比 Cluster 浪費錢 這是搞笑嘛?... 05/14 23:54
CGary:光是要插 512 GB 記憶體伺服器的錢又是一件事了... 05/14 23:54
CGary:Big Data is not a silver bullet 是確定的,但講唬人也是唬 05/14 23:55
CGary:人就是了~ 05/14 23:55
Wush978:好的資料勝過多資料,但是又好又多的資料呢? 05/15 00:06
francej:BigData如果是真的 那對台灣硬體廠商不是好消息 05/15 01:06
francej:因為這樣以後大家都用國外的雲端服務 硬體廠商利潤更低 05/15 01:06
francej:如果BigData是假的 買台server照樣跑得嚇嚇叫 那我們的 05/15 01:07
francej:廠商或還可以喘息一下 05/15 01:07
zxcvboy:我相信BigData有用. 但不是台灣的企業.... 05/15 01:38
Lordaeron:好的資料能多嗎? 還是將好的定義降低? 05/15 06:36
Wush978:為什麼好資料不能多?願聞其詳 05/15 07:25
Lordaeron:我才想問呢, 為什麼能多? 05/15 09:21
Lordaeron:當天下都是賊時, 就是天下無賊, 簡單的道理. 05/15 09:24
BlazarArc:看看搜尋引擎出來的結果就知道了,資訊太多不見得好 05/15 09:49
Wush978:如果是to C 的領域,生意越好就越多 05/15 11:58
Wush978:另外個人化服務也需要高精度資料 05/15 11:59
Lordaeron:看來你是連問卷都沒設計過的,還是去做你的生意吧. 05/15 13:04
Hadoop:這些資料大部分都在國外 而且現在fb, google都https的 05/15 13:06
Hadoop:你頂多只有他ip address跟時間吧的資料吧 05/15 13:06
Hadoop:說真的台灣應該是沒有bigdata, hadoop之類的需求吧 05/15 13:07
Lordaeron:!!某晶圓廠!! 05/15 13:14
brandyjohn:如果是每片wafer上的每個chip的每個資料可能有需要 05/15 14:03
viable:研究基因...哪個基因幹嘛的 要非常多人的全部基因資料 05/15 14:22
viable:...臺灣好像沒這個產業 05/15 14:23
Lordaeron:不是可能有需要,是人家就在做,只是沒跟著doop一下潮流. 05/15 14:34
Wush978:台灣有遇到big data的公司,只是不多。 05/15 14:34
Wush978:不過可以想見只要生意好,又有做log,未來都還是會有分析 05/15 14:46
Wush978:的需求。 05/15 14:46
Hadoop:基因定序生物資訊分析應該是bigdata的失敗案例吧 幾年前炒 05/15 15:11
Lordaeron:做2千萬人的生意,有什麼好big data 的? 05/15 15:12
Hadoop:得很熱,但真有看到哪個成功的business? 05/15 15:12
viable:http://ppt.cc/pwOI 這篇寫的 作者說每名病患的疾病分子構 05/15 15:32
viable:造都是tb等級的 即時我也看不太懂^^||| 05/15 15:33
viable:無法判斷作者指突變的癌症基因還是整顆癌症細胞的分子構造 05/15 15:39
Lordaeron:哦,根據discovery講的,分子構造哪是宇量等級了 05/15 17:45
Hadoop:這能不能發展成商業模式賺大錢還是個大問題吧 05/15 17:46
Hadoop:就像核融合也講很久了 也都有雛型可以臨界反應了 但真的要 05/15 17:48
Hadoop:商轉,目前還不是都只能用會產生核廢料的分裂反應爐 05/15 17:49
Wush978:領域不同吧,我周遭有些朋友要處理的資料真的是很大很可怕 05/15 18:46
Wush978:例如影像處理相關的。 05/15 18:46
Wush978:我自己分析的資料量沒他們這麼大,一天數十GB而已。 05/15 18:47
viable:核融合要非常高溫也是很危險的啊 05/15 20:56
pracinverse:印象中shemale在T社做大數據?有請強者shemale 05/15 21:05
Lordaeron:影像處理資料量很大?? 05/15 21:13
Lordaeron:台灣的貴公司是? 一天數十GB? TAOBAO? 05/15 21:18
francej:如果只是高速電腦中心能處理的資料量我覺得都不能算大資料 05/15 22:01
francej:不然所謂的大資料問題..二十年前就存在啦 (國高1993成立的 05/15 22:03
francej:國高也是一堆cluster, 也有supercomputer (超強的server) 05/15 22:03
francej:我相信數十GB,甚至數千GB這種資料量國高的設備老早就能夠 05/15 22:04
francej:輕鬆應付了.. 05/15 22:04
francej:如果是好奇scaling out能做到甚麼境界..這不應該是已經研 05/15 22:07
francej:究了好幾十年的平行處理早該回答的問題了嗎? 還是說真有 05/15 22:08
francej:甚麼新的議題在裡面?? 05/15 22:08
Lordaeron:NASA, 跟美國一堆物理中心的資料, 早就是以GB為單位的 05/15 22:18
Wush978:hadoop就是平民級的cluster呀。那種超級電腦並不普遍。 05/15 23:50
Wush978:資料量的大小是相對於你手上的computation power,不是絕對 05/15 23:51
Wush978:而且當牽涉到比較複雜的演算法時,其實現在也沒有什麼好的 05/15 23:56
Wush978:solution。 05/15 23:57
Wush978:Chih-Jen Lin老師的一個talk: http://0rz.tw/fG0sZ FYI 05/15 23:59
Wush978:裏面的結論:現有的分散系統或框架不適合Machine Learning 05/16 00:01
francej:那不禁令人好奇Google, Yahoo, FB是怎麼活到今天的 05/16 01:26
francej:也許它們沒有處理bigdata需求? 也許他們特別有錢都是用超 05/16 01:27
francej:級電腦,而非外界傳言的也是用平民級cluster? 05/16 01:27
francej:以學術研究的角度的確可以去探討某複雜演算法對上大資料 05/16 01:29
francej:可能會有甚麼情況跟需要的變化 但以"商業"實務角度來說 05/16 01:30
francej:是否真會make difference就值得商榷囉 事實上很多領域都 05/16 01:31
francej:有類似的問題...倒也不是只針對bigdata 05/16 01:31
Lordaeron:Hadoop 只是CLUSTER應用的其中一種,適不適合ML, 看你怎 05/16 06:52
Lordaeron:應用而已, 你還是快說貴公司的名號吧,一天幾十GB的台灣 05/16 06:52
Lordaeron:公司的. 05/16 06:52
Wush978:@francej, 他們的solution, 對大部分的我們來說,並不一 05/16 07:37
Wush978:定適合 05/16 07:37
Wush978:另外,如果只是儲存, 那大家的確已經有solution。但是複 05/16 07:45
Wush978:雜分析上,就有差異了。 05/16 07:45
Wush978:很多模型要做最佳化,目前既有的系統要做最佳化不容易。 05/16 07:47
Lordaeron:@Wush978 你還是講一下你的公司名字吧.別在這BIGDATA了 05/16 13:30
Wush978:@L, 你就當我是不懂統計,正在學習做問卷的就好。哈哈。 05/16 18:34
Lordaeron:@Wush978,怎麼會呢,你這麼強,天天幾十GB, 大公司呢 05/16 19:49
realmeat:幾十GB很多嗎?? 05/16 20:42
Lordaeron:不然呢? 幾十呢, 三為幾呢, 最少也30GB 05/16 21:07
realmeat:是資料分析的量? 還是傳輸的量?還是儲存的量? 05/16 21:33
Wush978:我覺得還滿少的阿... XD 05/16 21:40
Wush978:我想強調資料的多和少是相對於計算量,而不是絕對值 05/16 21:41
Wush978:大資料並沒有絕對的說怎樣的資料是「大」,反正只要既有的 05/16 21:41
Wush978:資源沒有辦法在滿意的時間內處理的問題,就可以算是「大」 05/16 21:42
Wush978:而且大資料其實是3個V, 「量」只是其中之一... 05/16 21:42
Wush978:而且真正對生意有幫助的是分析能力,資料只是第1步... 05/16 21:47
francej:那這樣說來幾千年前就有大資料的問題了 那時候只有算盤 05/17 00:13
francej:幾千年前也一樣有資料velocity跟veracity的問題吧(如果說 05/17 00:16
francej:一切都用相對當下的計算資源和科技來看的話) 05/17 00:16
Lordaeron:relative Bigdata. 05/17 00:22
Wush978:但是幾千年前沒有人懂data science。反正你們可以繼續不以 05/17 00:59
Wush978:為然,但是世界就是在往這個方向走。成功的故事只會愈來越 05/17 01:00
Wush978:多 :) Good Luck 05/17 01:00
Lordaeron:wow, term很多, data science都跑出來了. 05/17 12:58
Lordaeron:我只有問題貴公司的名字而已呢. 你扯這麼遠幹嘛呢. 05/17 15:04
Wush978:我沒有要回你,我是回其他版友 05/17 18:26
Lordaeron:好吧, 哪你快回我吧, 哪家公司這麼強, 天天30GB以上 05/18 00:31
Lordaeron:而且還是統計上的好資料居多的, 快說吧 05/18 00:32
Lordaeron:相信GOOGLE 一定會買你公司的. 05/18 00:32
realmeat:我相信Google不會 (笑 05/18 00:38
CGary:有很多公司在做的專案根本不能透漏, 你問人公司名稱可能會害 05/18 11:57
CGary:人沒頭路喔 XD 05/18 11:57
Lordaeron:做專案會分析LOG? 有這樣的專案? 05/18 15:08
CGary:我說是公司內部在做的專案啦~ 又不是講做別人的專案... 05/18 16:42
CGary:其實我覺得30G/day是真的不大 金融業跟電信業的資料隨便塞一 05/18 16:43
CGary:塞都一大沱~ 05/18 16:43
CGary:但 web 相關的服務要搞出 30G/day 真的要是挺世界級的了... 05/18 16:44
CGary:btw, 與其講大資料有沒有用 還不如說潮流就是在往這邊走 05/18 16:45
CGary:商業炒作從來就不是跟技術掛勾的 不然物聯網是要炒甚麼鬼?XD 05/18 16:46
Lordaeron:金融業有用的資料能到30G/DAY? 我真的沒看過. 05/18 18:38
CGary:看你怎麼定義有用的資料,如果你是主管你就不會放過任何資料 05/18 23:57
CGary:至少我的經驗是如此啦 :) 05/18 23:57
CGary:當然,我自己也認為有用的資料不是那麼多就是了... 05/18 23:58
CGary:but anyway, 對方認為這有沒有價值跟我們自以為的通常無關 05/18 23:59
CGary:可能對方也認為我這是所謂自以為的IT專家講的行外話吧?XD 05/18 23:59
zanyking:30GB...我想得到的有醫療影像、心電圖、腦波之類的做統計 05/19 11:13
zanyking:分析,股票或市場波動的好像沒那麼多。不過這很有趣, 05/19 11:14
zanyking:想像一下有哪種領域會需要每天30GB input的。 05/19 11:14
viable: 衛星接收站 05/19 15:02
Lordaeron:30G醫療影像? 有幾個檔? 05/19 15:07
CGary:醫療圖像不太可能有30GB, 除非你是做居家看護這類的... 05/19 15:35
CGary:衛星接收站其實也不會 我之前接觸過這個產業 畢竟民用衛星其 05/19 15:35
CGary:實很少...:) 05/19 15:35
Wush978:上個月去國際研討會遇到上海交大的助理,他是說他們合作的 05/19 21:04
Wush978:企業一天的資料量差不多就是一天數十G。敝公司則是握有台 05/19 21:05
Wush978:灣大部份上網人口的行動資料,所以可以達到這個量級。 05/19 21:05
Wush978:某博士班學姊做雷達偵測車速的資料分析,據他所說是無法存 05/19 21:06
Wush978:到硬碟的量級。sensor如此便宜,攝影機如此多,若是要挖掘 05/19 21:06
Wush978:裏面的資訊,那要處理的資料也更多了.大資料?唬人? :) 05/19 21:07
Lordaeron:當然是唬人,放不進硬碟? 哪你分析什麼,寫在紙上? 05/20 10:33
Lordaeron:掌握大部分行動上網人口的行為資料? GOOGLE? CHT? 05/20 10:33
Lordaeron:不管這兩家的哪一家,都沒看過有人敢說, 好資料佔大多數 05/20 10:34
Lordaeron:除了閣下的天才. 05/20 10:34
Lordaeron:再說,能做這種鳥LOG,難道是今天才能? 以前不行? 05/20 10:36
Wush978:能增加營收10%的是不是好資料? 05/20 15:12
Lordaeron:天天都好資料, 你公司加1000%營收才對. 沒概念就是這樣. 05/20 17:18
Wush978:那何謂有概念的好資料?你確定你是在講大數據嗎? 05/20 18:54
Lordaeron:還要扯, 什麼是BIGDATA? 照你的講法, 我當年只有1MB 05/20 20:50
Lordaeron:memory, 但有30MB 的資料, 就是Bigdata了. 05/20 20:51
Lordaeron:好, 是相對全部資料的品質, 好的很多, 是相對量詞 05/20 20:52
Lordaeron:意思是說, 你的資料中, 有用的比沒用的多. 05/20 20:52
Lordaeron:哪就發生一個問題, 有用的比較多, 要你分析來幹嘛? 05/20 20:53
Lordaeron:而你天天都有30GB以上的好資料, 又能從中得到10% 的營收 05/20 20:54
Lordaeron:哪麼, 若貴公司已開業10年, 哪公司早成長1000%不止了. 05/20 20:54
Wush978:你弄錯了。大數據需求中,不是直接使用資料,而是要從資 05/20 21:33
Wush978:料中挖出好的資訊。 05/20 21:33
Wush978:好10%的意思則是,有使用挖掘出來的資訊的策略,和沒有使 05/20 21:35
Wush978:用的策略相比較。 05/20 21:35
Wush978:如果可以簡單直接用資料,data scientist就不會是現在矽 05/20 21:38
Wush978:谷最熱,薪水最高的工作之一。 05/20 21:38
Wush978:你當年的問題的確是big data要解決的一種,只是現在的瓶頸 05/20 21:41
Wush978:可能在任何地方,演算法可能還包含複雜的最佳化,所以以前 05/20 21:41
Wush978:的解決辦法現在不能用。 05/20 21:41
Lordaeron:好資料, 不是策略, 別跟我扯開. "好"是相對量詞, 這 05/20 23:28
Lordaeron:你沒搞清楚, 沒辨法. 你還是回到你的工作吧. 05/20 23:28
Lordaeron:加你的10%吧. 05/20 23:29
Wush978:是你在亂扯吧。我講的就是這領域的目前的主流,你要批評這 05/21 00:12
Wush978:領域,又不是針對主流作法,非常的莫名其妙。 05/21 00:13
Wush978:當然啦,如果你要自己創造「L氏大數據」,然後說他是唬人 05/21 00:14
Wush978:的,我個人是沒意見的。 05/21 00:14
exoduschi:big data比較像是Wush978說得這樣 05/21 02:15
exoduschi:要從大量資料找出business intelligence這樣 05/21 02:19
Lordaeron:哪個叫data mining!! 05/21 09:15
Lordaeron:Data Mining 在你口中的Bigdata 還未在炒時就在Mine了 05/21 09:17
Lordaeron:再來, 從為何好資料不能多,一直扯放不進硬碟,再扣我冒子 05/21 09:19
Lordaeron:頂能轉的. wiki上中英文的DM 的定義都有. 05/21 09:20
Wolfken:Big data本來就是包括storage跟analytics,而我覺得真正賣 05/21 12:00
Wolfken:點並非storage而是analytics 05/21 12:00
Wolfken:當然analytics就是data mining,也不是新東西,但是這東西 05/21 12:01
Wolfken:之前沒發展到這麼成熟,最近幾年有明顯的進展,IBM的 05/21 12:01
Wolfken:Watson跟Apple的Siri都是 05/21 12:02
Wolfken:現在所有公司跟產業分析師都在講analytics能怎樣怎樣,當 05/21 12:02
Wolfken:然中間會有灌水成份,有些狀況是講得很美好,實際功能卻有 05/21 12:03
Wolfken:不小落差,目前說法是這東西依然未成熟,大概要再4~5年 05/21 12:04
Wolfken:問題是4~5年後是不是真的就會成熟,這就只有天曉得了 05/21 12:04
Wolfken:但身為科技公司,在大家都在講這是將來潮流時,你要賭一把 05/21 12:05
Wolfken:說這東西不會成熟,還是多少投資一點玩玩看? 05/21 12:05
Wush978:@L, 是不是扣帽子大家心理有數。 05/21 12:58
Lordaeron:你的BIGDATA 跟別人不同, 還用我說. 更別說, 好資料的定 05/21 13:03
Lordaeron:義, 也是跟別人不同. 05/21 13:03
Wush978:@W, 其實我認為現在big data會熱,是因為種種技術成熟所導 05/21 13:28
Wush978:致的,換句話說,就是水到渠成。無論是資料的收集,到資料 05/21 13:29
Wush978:的分析,這目前看起來有太多的潛力了。例如Kaggle上就有很 05/21 13:30
Wush978:多好的結果。我以為成功不成功不是問題,差別只在多賺多少 05/21 13:31
exoduschi:大家都是互相撞擊自己的意見 科學本身就是這樣 05/21 17:56
exoduschi:IMP,DATA沒有好壞 只是你能不能分析而已 以前沒辦法分析 05/21 17:57
exoduschi:現在可以分析這就是big data 好幾年前CERN就是big data 05/21 17:58
exoduschi:就好的例子 只是現在可以分析的東西太多了 遠超過你能想 05/21 17:59
exoduschi:想像的 什麼鬼資料都可以分析 只要你能說的通 拿出數據 05/21 18:01
exoduschi:大家接受 沒有什麼好資料 壞資料的分別 05/21 18:02
Wush978:@e, 我認為資料的重要性是超過分析的。 05/21 18:17
Wush978:有一種說法叫garbage in, garbage out。不好的資料可能會 05/21 18:19
Wush978:誤導決策,造成很大的損失。不可不慎。 05/21 18:19
exoduschi:也許 但我還是認為資料就是資料 沒有好壞之分 XD 05/21 18:30
Lordaeron:人也沒好壞之分,何苦將人抓去關<--這算屁話嗎? 05/22 10:36
mnbhjk123:大資料是蒐集資料方法之一吧,可記拉基資料保後路 05/25 01:33