作者GALINE (天真可愛CQD)
看板Soft_Job
標題Re: [請益] 野生環境的資料庫相關?
時間Sat Mar 14 23:56:02 2015
※ 引述《neo5277 (I am an agent of chaos)》之銘言:
: 所以請想問一下 所謂的資料庫引擎技術 以及一些學習這塊 雲端 bigdata ML應該要有
: 的基本內建知識 多謝各位
bigdata 是合體英文字母,看起來就很帥
不過實際上在討論/解決的問題,出發點其實滿單純的
「啊資料太大了,電腦開不起來,跑一個月跑不完,怎麼辦?」
「一台跑不動,那就用一百台開啊,一百台不夠就一萬台啊!」
「啊我要怎麼讓一百台,甚至一萬台電腦一起做同一件工作?」
「呃....」
所以有了 Hadoop,那是人家寫好可以快速派工給一萬台電腦的程式平台。
至於為什麼不用關聯式資料庫?因為他天生不適合多台一起做同一件事 *註1
有了這個認知之後,然後看你想學的實際上是什麼
- 想知道什麼時候該用大資料技術
-> 「當你要處理的資料大到硬碟裝不下的時候」
-> 「當你要跑的東西用一台電腦要跑一個月才能跑完的時候」
- 想學怎麼用 Hadoop
-> 直接去看教學文件,看你能看懂幾成。
而且這不太需要管那些資料結構演算法之類的
- 想知道「為什麼用一般的關聯式資料庫沒辦法像 Hadoop 一樣十個打一個」
-> 你得知道關聯式資料庫怎麼實作的,這個要學的東西就很多了...
- 想知道怎麼完全發揮大資料的威力
-> 請找統計學的書來看
註1:
不過也有人用這些分散式運算的技術做出讓你可以對一百台機器下 SQL 的資料庫。
用起來跟一般關聯式資料庫很像,只是底層的運作機制完全不同
而 Machine Learning 其實是另外一件事情,這類技術跟 AI 多少有關係
而且通常會碰數學。
http://zh.wikipedia.org/zh-tw/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0
Wikipedia 上面列了不少機器學習的演算法,不過大多寫的不太好懂
建議拿那些演算法的名字自己去 Google 其他的教學文章[炸]
我自己跟這塊不熟,但感覺這方面要能夠通也最好是去學個統計學...
那 Machine Learning 跟大資料的關係在哪裡?
當你想讓機器「學」的資料一顆硬碟裝不完的時候時候就有關了,反過來就沒關係....
還有,也不要太過相信 Machine Learning。
可以去 Google「類神經網路 股票」,你會看到一~大~堆~人想用 AI 自動下單賺錢
但是你基本上找不到有人真的這樣賺到錢....
最後,雲端跟奈米或小分子能量水一樣,在這個年頭是個被濫用的行銷名詞
實際上指的是什麼,還是根本是鬼扯蛋,那要 case by case 去看
我相信翟本喬很清楚自己講的雲端是什麼
但我也認為大部分掛著「雲端」的東西跟他說的雲端完全沒關係
-----------------------------------------------------------
其實要我說的話,能夠用上 bigdata 的場合其實沒那麼多
大資料的威力本質還是「分析資料來找出原本看不出來的事情」
真正該問的問題是「該分析什麼」
如果只要應付幾十萬筆,甚至幾萬筆資料
光是用 Excel 就可以做出嚇死人的統計資料
這時候你該學的是統計學,或是去學樞紐分析表怎麼用
不是每個人都有上 TB 甚至上 PB 的 Log 需要被分析...
--
______ ____________________________________ _ _-_ _ ___
/ __||____________________________________| _|_|.---'---`---.|_|_ |___)
|___| Let it go! Let it go! \----._________.----/
___ Where no man has gone before! `. `]-[' ,'
| |__ _________________________________________ `.' _ `.' ________
\______||_________________________________________| |_(_)_| |________)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.227.54.50
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1426348568.A.5FA.html
推 tw0517tw: 倒是超高速交易(這名字嗎?)好像有賺到錢然後被禁? 03/14 23:57
推 GoalBased: 推。 另外,大學的時候修了碩班的ML,根本就是數學課 03/15 00:16
※ 編輯: GALINE (61.227.54.50), 03/15/2015 00:29:44
推 ming1053: 高頻交易有被禁? 03/15 01:47
→ saladim: 高頻交易有爭議是因為 券商有黑盤 跟寫程式的達成交易 03/15 03:19
→ saladim: 可以看別人的單 跟插別人交易的隊 這邊插隊跟偷看單到最 03/15 03:20
→ saladim: 後決定下單 都在一秒內 甚至100分之一秒 網路上有影片的 03/15 03:20
→ saladim: 樣子 03/15 03:21