看板 Soft_Job 關於我們 聯絡資訊
最近看到一些公司在找人,把會用Hadoop認定是有大數據處理能力, 甚至會看研究所做的題目是不是Hadoop? 例如這篇 https://goo.gl/0cTk60 還有這篇 https://www.facebook.com/thank78/posts/630689647078714 但我對這種現象感到疑惑。 我認知的處理Big Data核心能力,是一些資料探勘、機器學習相關的演算法, 以及相關應用(例如挖掘特定領域的資訊)。 Hadoop是一個分散檔案系統的軟體工具,或許符合"Big Data"字面上的意義, 但我們都知道data無用,information才有用, 因此這個時代談的"Big Data"大多含有"挖掘、自動智慧"等意義, 而不是單純的資料管理。 更何況論文研究出來的知識,不應該綁定在特定工具。 或許研究者本人只熟悉Hadoop或某種套裝軟體,這難免的。 但研究貢獻、他人欲重現研究過程等,都不應該綁死在特定軟體工具上。 或許因為我非資訊本科系、也不熟資料庫, 請問,是不是我對 Hadoop 或 Big Data 有什麼誤解? 為什麼 Big Data 的核心能力會是某種工具,而不是方法? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.232.85.29 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1467783272.A.30C.html
dreamnook: 很多東西只是個口號或是個舊有技術的新標籤 07/06 13:36
LaPass: 這就是學術跟實務的落差 07/06 13:41
LaPass: 學術是告訴你理論,並認為你能靠理論去作實務。 07/06 13:41
LaPass: 公司是,有某個目標在,你要能用那些工具去達成目標。 07/06 13:42
king4647: 還有聽說Spark = 大數據的... 07/06 13:43
LaPass: 拿mysql當雲端以及大數據的都有.... 07/06 13:44
femlro: 因為你所說的工具正是因為針對某些特定用途而生成 07/06 13:49
wt5566: Hadoop不是過氣了 07/06 13:53
wt5566: 現在很像都Spark 07/06 13:54
exthrash: 你說的是modeling 建模型不一定要大數據 07/06 13:59
exthrash: 很多應用的數據量其實不大 像生物統計一類 07/06 14:02
我懂了= = 就像Bayes classifier只用少量數據就可以training出來
Yshuan: 可能是產品作大數據 但現在只缺瑪農 07/06 14:04
※ 編輯: deo2000 (118.232.85.29), 07/06/2016 14:06:35
exthrash: 另一方面 有些職缺真的單純就找人負責處理大數據的工具 07/06 14:06
exthrash: 但是model是別人在建 07/06 14:06
sean2449: 應該說這是infra的基本...machine learning再怎麼強,跑 07/06 14:08
sean2449: 個training要20天應該也很難做事 07/06 14:08
exthrash: 應該說任何model用少量數據都可以train 07/06 14:12
exthrash: 但不一定able to generalize 07/06 14:13
dreamnook: 要回到之前的梗嗎XD 「沒有數據的大數據」XD 07/06 14:14
Masakiad: 因為你要拿學術上的知識自己從頭刻會太久,hadoop通常 07/06 14:15
Masakiad: 指一整個生態系,包含儲存、分散運算的框架,不用從頭; 07/06 14:15
Masakiad: 另外像spark底下也有些ml演算法可以直接拿來用,所以實 07/06 14:15
Masakiad: 務上會希望要具備能力使用這些適合處理big data的工具, 07/06 14:15
Masakiad: 專心。但學術上的概念很重要,這樣才兜的出效果好的模 07/06 14:15
Masakiad: 型。 07/06 14:15
exthrash: 我想說的是通常ML相關工作 = model+處理數據的tool 07/06 14:15
exthrash: 小公司找的人可能身兼兩職 大公司找就比較專精其中一項 07/06 14:19
puffs: 因為他是 HR , 不是 RD 主管.... 07/06 14:41
ChrisMullin: 該人資主管有些文章論點令人發噱 07/06 14:47
我知道,這有人專文檢討過了 https://goo.gl/MhtTMq 不過他被詬病的都是一些跟專業無關的潛規則。 用人的技能規格上,應該還是直接受工程部門主管要求,好歹新蛋也是美國外商。
manaup: 那篇文... 只是在暗褒自己好厲害而已 別太當回事 07/06 14:53
fgkor123: 上課用py+spark基本的幾個model用過 不精找工作沒路用 07/06 14:53
manaup: 這時代 FB只是用來隱惡揚善的公關工具 07/06 14:55
manaup: 因為也沒有更值得一提的有價值事物了 只能拿小事做文章 07/06 14:57
fgkor123: 而且蠻好笑的,課名有提到APP的。反而都教很淺 07/06 14:57
popxpopxpop: 某單位的課程完全符合上面幾位說的 07/06 15:38
※ 編輯: deo2000 (118.232.85.29), 07/06/2016 15:44:47
andreli: 一個是 data engineering, 一個是 data science 吧 07/06 18:10
sing10407: 要先解釋資料探勘和大數據的差別 07/06 20:35
oread168: 真累 07/06 21:39
※ 編輯: deo2000 (118.232.85.29), 07/06/2016 23:54:49
coronach: 首先你舉的例子是同一個人,那個人第一不是技術主管, 07/07 09:45
coronach: 第二待的又是板上不推的公司... 07/07 09:45
coronach: HR主管或Head hunter知道大數據跟Hadoop已經是極限了, 07/07 09:59
coronach: 你不可能要求他們知道整個生態系的各種工具用途,也很 07/07 09:59
coronach: 難讓他們理解資料工程師跟資料科學家的差別 07/07 09:59
coronach: 推完發現上面都講了,補一句,不是美國外商的技術就不 07/07 10:02
coronach: 會有問題XD 07/07 10:02
vaga: 簡單說公司想做這個但是不想花成本訓練(但是如果評估這人學 07/09 01:21
vaga: 習力快可能願意招募),所以告訴你我們用Hadoop 做bigdada, 07/09 01:21