看板 Soft_Job 關於我們 聯絡資訊
【丰云】17 年一覺大數據,老名詞翻新再炒一輪 http://technews.tw/2017/06/03/big-data-taiwan/ 台灣政府過去推出許多遠大口號,產業界往往是表面上不敢違逆,私底下傻眼、 嘲笑或痛罵,不過,不只政府會不斷創造口號,產業界自己也一樣,全球產業發 展史上,多的是無數定義不清、前景不明,連創造者自己都搞不清楚定義的口號 名詞,同一個名詞還會不斷改名,重複炮製,產業以外的一般民眾,往往被重複 糊弄了好幾次,還汲汲營營的跟著喊,以為有跟上最新口號就是有遠見、有大視 野,最慘的則是,連口號都已經過期了十幾年,還傻傻的繼續喊。 近來「大數據」與「滷肉飯」之爭,就是一個這種傻勁的典範,大數據是未來? 不,大數據本身就已經是 2000 年出現的名詞,光是「大數據」這 3 個字就已 有 17 年歷史,而與大數據相同概念的前身名詞,最早自 1959 年就已經提出, 相較之下,台灣知名、時常成為熱門網路討論話題的鬍鬚張滷肉飯,創業於 1960 年,當時還是路邊攤,也就是說,大數據比鬍鬚張滷肉飯還要古老。 事實上,整個數據分析的概念,還可推到更久遠,最起碼從迴歸分析問世就 應該開始起算,若是如此,那歷史得要往前推到史上留名的德國數學家高斯的 年代,那可是 19 世紀初的 1800 年代,台灣還要等超過一個世紀才會發明 滷肉飯(推測台灣滷肉飯是自日本時代改良品種誕生蓬萊米之後才出現, 蓬萊米發表於 1926 年)。 高斯雖然與勒壤得開啟了最早的迴歸分析,但當時顯然沒有電腦,一切都是 仰賴「人腦智慧」來運算、找出數據的迴歸模型,沒有所謂電腦演算法,所以 就把它們只算做是強調電腦運算的大數據的老祖宗。但 1959 年起,如今的 大數據概念就已經確實出現了。 十幾年來兩岸炒作大數據議題,只要是經歷超過 20 年的資深資訊業界人士, 一聽到大數據的說法,往往反射式的回應:這不就是所謂「機器學習」 (Machine Learning)或「資料探勘」(Data Mining)? 的確正是,美國人工智慧先驅亞瑟‧李‧山謬(Arthur Lee Samuel) 於 1959 年定義「機器學習」(Machine Learning),就是要發展演算法, 讓電腦人工智慧能在並未事先指定特別方向或任務的情況下,從大量資料中 找出資料中的關鍵之處或是異常之處,可以逐步學習,並具備預測能力。跟 現在的大數據定義大同小異。 機器學習也同時是另一個名詞「深度學習」(Deep Learning)的前身, 時間往後推到如今的 2016 年,產業界的運算能力使得機器學習可發揮驚人 的水準,其成就表現於 AlphaGo 以「深度學習」擊敗人類圍棋棋士,於是 「深度學習」又一時成為當紅的新名詞,其實不過就是過去被遺忘的機器學習。 如今深度學習已經開始應用於許多領域卓然有成,但 1959 年時,人類掌 握的運算能力還不足以讓機器學習產生太大的有意義成果,結果口號喊了以後 實質上成果有限,到 1960 年代,由於缺乏實績,統計學家嘲笑這種不設定預 設假說、只是丟進一堆數據就想分析出成果的想法是異想天開,跟挖爛泥巴沒 兩樣,貶稱為「資料釣魚」(data fishing)或「資料挖泥」(data dredging)。 機器學習這個名詞蒙塵,遭扔進爛泥堆,但是電腦科學家的理想不變,到了 1990 年,又發明了新名詞,這次叫「資料探勘」,強調從大量電腦資料中找 出關鍵或異常資訊的能力。其實,原本是要叫做「資料庫探勘」(Database Mining) ,很不幸的是,一家加州聖地牙哥電腦公司 HNC 已經為了其產品 「資料庫探勘工作站」(Database Mining Workstation)申請商標,為了避免侵 犯 HNC 商標,只好拿掉一個字,改叫資料探勘。同時還有許多其他講法, 如「資訊收割」、「資訊發掘」、「知識萃取」等。 資料探勘這個名詞風行了好幾年,也的確有許多應用,譬如在台灣,健保局於 健保 IC 卡化後,利用資料探勘,察覺出診所申報的看診情況異常,再針對這些異 常資料的診所進行實地檢查,果然發現其中有部分診所有詐騙健保的行逕,這就是 一個相當成功的資料探勘應用。但是,一個名詞從 1990 年開始喊,到了 2000 年 已經成了 10 歲的老名詞,又感覺不大新潮了。 全球的產業顧問界為了創造新流行,在 2000 年又重新發明一個新名詞,把本 來就行之有年、運轉順暢、穩定發展的資料探勘,重新包裝成「大數據」,2001年 ,日後由顧能(Gartner)購併的市場研究公司麥塔集團(META Group),給了 大數據「3V」的定義,強調「巨量、即時、多樣」的資訊經由機器學習處理的應用 ,其實本質上與過去的機器學習、資料探勘並無二致,日後顧能又基於「3V」小幅 修改、擴充對大數據的定義,但大體上沒有太大變動。 ------------------------------------------------------------ 以上的講法並不正確: 現在的大.......數據的定義是綜合以下: Google, alphago, Hadoop 生態系統, NoSQL, Python scikit-lean,Scala, R... CNN, BBC, NHK, Al Jazeera, KNN, SVM, baysian network,RL, LL, SL..... 線性回歸太小了. 1990年? google 在哪? python 在哪? 沒有它們, 算大數據嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.169.232.28 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1496497071.A.CE8.html
lspci: 啊就data mning啊,ptt 的資料1995年就開始拿來挖了,為什 06/03 21:48
lspci: 麼一定要有python笑死 06/03 21:48
testPtt: 以前很難搞出很多資料阿 系統支援容量又小 06/03 21:57
Ekmund: 老梗是真的 這文lag也是真的 06/03 22:04
penolove: 每個時代都有每個時代搞不定的數據量R 06/03 22:09
hsnuyi: 線性回歸的本質是minimization問題... 你現在所有的ML alg 06/03 22:18
hsnuyi: o也是... 只是target function或是實作方法不同罷了 06/03 22:18
ghmsxtwo: python跟R只是語言阿,也不一定要NoSQL阿 06/03 22:19
hsnuyi: SVM是 NN也是 各種cluster analysis也是 dimension reduct 06/03 22:22
hsnuyi: ion的各種方法 則是統計那出來的 像是PCA, factor analysi 06/03 22:22
hsnuyi: s 了? 06/03 22:22
Lordaeron: 啊,去回作者啊, 不敢回作者? 06/03 22:49
ericrobin: 直接End 結果看到虛線以下的鬼扯 哈哈哈 06/03 22:53
Kazimir: 以上以下都很怪啊 把碎肉加再飯上你確定歷史只有這麼短? 06/03 22:58
Ekmund: 作者喔?唉... 06/03 23:06
Ekmund: 他不是這塊專門的 他是很博聞 低產卻深度的筆者 06/03 23:08
Ekmund: 你跟他講專門歷史他一定輸你的 06/03 23:09
Ekmund: 藍主筆的觀點往往值得一看 但建議多看些平衡報導 06/03 23:09
Lordaeron: 誰鬼扯?現在你看到的大數據,從來就沒離開過哪些term. 06/03 23:29
Lordaeron: @Ekmund,台灣很多行家, 但我不是,就麻煩你去講了. 06/04 00:12
pttworld: 連結文章最後扯詐騙不曉得在離題什麼。 06/04 00:27
f496328mm: 大數據的層面很廣 目前大多數都只是資料分析而已 06/04 00:50
f496328mm: 卻把資料分析包裝成大數據 06/04 00:50
f496328mm: 真正在做的 很少會講到大數據 06/04 00:50
f496328mm: 大部分人碰到的 光是數據就不大了 06/04 00:51
f496328mm: 然後有些大學還推出 "大數據學程" 真的很好笑 06/04 00:51
f496328mm: 況且 DL 是應用GPU才起飛的 以前的人怎麼做?? 06/04 00:54
mdkn35: 網路->雲端 06/04 08:10
ianlin45: 目的一樣,能力跟方法不一樣,懂 06/04 08:32
lovebridget: 大什麼大? 06/04 10:46
exthrash: 虛線以下的結論根本鬼扯 06/04 11:38
lance8537: 廢文 乾脆寫大雞雞算了 06/04 11:53
elements: 背後就是數學,西元前就有了 06/04 12:05
grimmq427532: 大數據學程,就是學相關工具和應用啊,哪裡好笑 06/04 13:10
grimmq427532: 當然你scale可能沒實務那麼大,就一個叩門磚 06/04 13:11
grimmq427532: 現在隨便一筆資料都是幾十幾百GB,你說大不大 06/04 13:11
yr: 夠廢 06/04 13:43
jason222333: 文人多亂事 06/04 15:07
bobju: 不管阿貓阿狗,能幹掉人類圍棋棋士就是阿法狗 06/04 16:26
csfgsj: 我就知道你會被噓,這個版不能說實話,一堆做夢的人會崩潰 06/04 18:33
Ekmund: 防衛心別那麼重 我也確實和筆者在別人的FB小爭過 06/04 21:33
hsnuonly: 窮舉法大師 06/04 22:07
Lordaeron: @Ekmund,維護世界和平的這個重任就交給你啦. 06/04 22:29
Ekmund: 平個鵰啊 就道不同不相為謀惹 禮敬三尺便是 06/05 02:53
meteor260: 原文已經夠廢惹, 虛線下一個一山還有一山高的概念 06/05 10:05
stitchris: 廢文, 文組就會把歷史翻出來拼拼湊湊, 自以爲破解了魔 06/07 13:52
stitchris: 術般沾沾自喜.. 然後呢?? 06/07 13:52
ruokcnn: 我覺得是現在業界過於濫用大數據一詞導致門外漢根本分不 06/10 09:08
ruokcnn: 清楚 06/10 09:08