看板 book 關於我們 聯絡資訊
身為分析資料出身的人,我一看到這本書立刻就買了 覺得很值得一讀,在這邊跟大家分享心得 文中提到書中很多案例,但都避免涉及細節,以免減損版友閱讀的樂趣,請放心 請多多指教~ 可參考無音樂無廣告網誌版: http://monkeyinsight.blogspot.tw/2013/08/big-data.html Big data以及data mining在最近幾年非常熱門。由於科技進步, 大家能取得、儲存、和分析的資料量非常大幅度地增加,也出現 了一些有趣的分析結果(例如Google預測美國那些州會爆發流感) ,因此大家都感受到這股趨勢席捲而來。之前雖然偶而讀到一些 文章介紹最新發展,但直到讀了這本書,我才清楚了解big data 對這個世界的影響有多深遠。 從表面來看,這本書有大量實際應用案例,讓我們可以知道哪些 領域已經開始享受到big data的好處。例如消防機關判斷哪棟建 築有失火風險以降低火災次數,網路商店如何推薦商品讓消費者 願意多付錢,或是快遞公司重新規畫路徑以增進送貨效率。big data憑藉強大的運算能力,挑戰人類的智慧。以往很多事情都是 依賴人們的經驗來做決定,就像電影《魔球》裡面的老球探們, 總覺得自己的感覺最可靠,可是其實感覺是很不可靠的,社會心 理學不斷提出實驗證明人的判斷力會受到當下周圍各種因素影響, 甚至氣溫比較溫暖都可能讓人覺得社會比較溫暖。人的判斷力這 麼不可靠,能處理的資訊量又遠不及電腦,因此未來勢必有愈來 愈多領域會依賴big data協助做決策,甚至完全讓電腦做決策 (像是Google廣告讓電腦自己決定要放什麼廣告給這個使用者)。 我最喜歡的案例是用big data改進電腦翻譯能力。製作翻譯機器 有兩種途徑,一個是找語言專家來設計兩個語言的對應關係,另 一個則是看大家是怎麼翻的。找專家看起來很精確,但語言是活 的,充滿無數個例外,再多專家也難以窮盡所有的語言規則。因 此如果能夠參考大量的原文書和翻譯書,分析別人都是怎麼翻譯 的,應該更能創造出流暢的翻譯結果。我喜歡這個概念,有一種 群眾智慧勝過專家的感覺。 然而,作者認為big data更重要的影響是深層思考觀念的改變, 這股趨勢將會改變人們看待世界的方式。 首先是他改變了分析資料的哲學,世界上絕大多數的研究,不論 是收受試者做問卷或做實驗,幾乎都是採用抽樣方法,即用少數 人的態度行為推估全部人的態度行為。為了能說服別人實驗結果 可以類推到全世界,於是發明統計學以及各種實驗設計法。但這 是權宜之計。如果可以,誰不想真的去研究全世界的每一個人呢? 現在,我們真的可以研究每一個人了。big data的意義不完全在 於資料量多,更重要的意義是,他的樣本等於母體!例如賣場要 知道消費者買啤酒同時還會買什麼,他不再需要隨機抽取100個 消費者去問,他只要利用結帳資料,就可以看到所有到這個賣場 的人買啤酒的時候還會順便買什麼(這就是有名的啤酒與尿布的 傳說)。這是事實,不是推估的結果! 此外,由於big data處理的資料量通常很大,資料的精確性就可 以被犧牲。例如上述電腦翻譯的例子,我們重點是要收集大量的 翻譯資料,管它翻譯品質好還不好,管他每一句的主詞受詞怎麼 對應。作者相信,量大就會產生質變,我們的重點是取得最大量 的資料,如果斤斤計較每筆資料的正確性,或是還要花時間去整 理每筆資料的格式,大概要一百年後才能開始分析了。這對於我 們習慣抽樣研究的人來說絕對是個衝擊,我們念茲在茲思考問卷 的問題是否精確,每一個行為要怎樣量化,一切都要求標準化。 這其實也是個權宜之計,因為我們也知道人們在日常生活中的行 為絕不可能標準化。結果這堆工程師竟然可以運用演算法分析雜 亂無章的資料,說不定反而更真實反映人類行為。 最後一點,作者認為將改變世界,就是「放下長久以來對於因果 關係的堅持...相反的,是要從資料中找出事物的模式,以及彼此 的相關性...我們可能無法瞭解某件事情為何如此,但卻能夠知道 事情正是如此」。這點非常重要,我們往往想去探究因果關係, 讓一切事件的發生都顯得合理,然後最好還能根據這個因果關係 去預測未來將會如何發展,然後才敢下決定。但正如《黑天鵝效 應》一書所說:預測預測個頭!天底下沒有任何事情可以有百分 之百確切的證據證明因果關係的存在,所有因果關係都只是人類 的一種感覺而已。但很多人需要擁有這種感覺,才敢做出決定。 例如要證明買啤酒的人是因為老婆交代他去買尿布,他不得不去 逛賣場,為了給自己獎勵,所以也買了啤酒。得到這個故事,就 好像一切都明朗了,就願意接受啤酒和尿布存在某種關聯,然後 才敢把尿布和啤酒放在鄰近的貨架。說實在,我才不相信每個買 尿布與啤酒的人都是這個原因。與其花時間在那邊解釋這個資料 是怎麼回事,身為賣場經理,是不是應該更快速採取行動呢?作 者傾向回答是。因為事實就是如此,管他為什麼。等思考出一個 原因,很可能時不再來了。 我還不知道該怎麼取捨,相關和因果都很重要。因為big data的 資料量多,很容易得出某兩個變項之間有高相關的結論,例如橘 色跑車故障率低。如果不試著找出背後可能的原因,這個結論真 的可以用嗎?你買中古車的時候敢直接就挑橘色的嗎?因此,相 關和因果誰比較重要,應該是見仁見智。big data重視相關的取 向是不是一定比重視因果的取向有效,現在也無法預測。 我想big data的趨勢應該在近幾年只會愈來愈熱門,雖然我不是 寫程式出身,不懂演算法是什麼,但作者分析big data的人才有 三種:能取得資料的人、能分析資料的人、以及能開創big data 價值的人。至少我們可以當第三種人,思考目前的產業可以怎樣 運用big data而創造更大的價值。 最後註解一下:雖然我引用了《黑天鵝效應》的話,但其實該書 作者Taleb在《反脆弱》一書中明文表達不相信big data的研究 價值。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 1.162.69.170
playerj:真的...剛好最近做的東西,根本不用抽樣,因為資料都有.. 08/28 00:14
playerj:要應付的最大問題是怎麼面對以億為單位的資料量 08/28 00:15
出現活生生的big data分析師!!請受我一拜~
donaldknuth:Taleb信奉的是隨機性,自然會對Big Data產生質疑 08/28 07:55
是的,他在意的是偶發但影響力超大的黑天鵝事件 但我們畢竟平常也要過生活,總是要有方法處理99%的平凡事件 ※ 編輯: tsim 來自: 59.125.119.143 (08/28 09:20)
fantasy361:這本真的不錯看,簡明易懂。 08/28 13:50
skyleo:做過普查,對所謂的不刻意追求精準感到懷疑,因為受訪者 08/28 14:54
skyleo:故意給錯誤資訊是普遍現象,就算有很多資料,參考性也存疑 08/28 14:54
Kent58:Big Data與一般統計的資料來源不太一樣,兩者都有存在的必要 01/04 18:52