推 hahaxd78: 推! 05/18 00:01
推 PHEj: 推講得很中肯05/18 00:05
推 errard: 推個05/18 00:09
推 eggy1018: 謝謝提點!05/18 00:33
推 cry004: 推 好清晰05/18 01:27
推 lovepork: 感謝大師分享!05/18 01:33
推 aszx4510: 厲害05/18 04:12
推 bowin: 推分享! 05/18 04:13
推 littleyuan: 謝謝分享!! 05/18 05:11
推 shiauji: 強05/18 05:45
推 chen1025: 推05/18 08:19
推 crow1270: 推 05/18 08:42
推 kekking: 推05/18 09:00
推 chienjens: 推推05/18 09:17
推 billy0131: 推05/18 09:36
推 bcew: 推分享05/18 09:41
推 pig0038: 推05/18 09:50
推 gmoz: NICE05/18 09:54
推 ian90911: 推分享05/18 09:57
推 vn509942: 感謝分享 非常寶貴的經驗05/18 10:25
推 b160160: 推05/18 10:26
推 f496328mm: 大部份人選擇工具或方法的原因是「因爲老師/學長說的」 05/18 10:27
→ f496328mm: 這點真的很中肯 05/18 10:27
推 qazedcrfv: 中肯,推!05/18 10:53
推 yuchio: 推05/18 10:57
推 xavierqqqq: 推推05/18 10:59
推 smalldra: 讚05/18 11:10
推 Fen9ze: 推05/18 11:19
推 Yukirin: 心有戚戚焉05/18 11:21
推 yamakazi: 看來要當資料科學家也是不容易 05/18 12:13
→ yamakazi: 很多物理系的覺得轉職資料科學家不是太困難 但真的轉成 05/18 12:15
→ yamakazi: 功也沒那麼容易05/18 12:15
推 Sunal: 或許覺得比拿物理PhD簡單吧...05/18 14:21
推 az75225: 謝謝分享 05/18 17:43
推 abc53: 推05/18 17:47
推 adsl54010: 謝謝分享05/18 19:12
推 h042910276: 推05/18 20:20
推 orcahmlee: 謝分享!05/18 23:39
推 billy4195: 推中肯05/19 08:08
推 peter308: 感謝原po熱心分享!05/19 10:38
推 wxtn: 推推推05/19 21:28
推 jojojen: 推05/20 10:32
推 Arctica: 感謝分享05/20 14:58
推 ntddt: 大推 05/21 22:19
推 remember69: 豪猛 05/23 00:16
推 lovepork: 請教一下,資料科學家必須先從資料工程師當起嗎?05/23 12:22
→ lovepork: 我近期有去跟資策會的課程經理談過,他說他的課程只能05/23 12:23
→ lovepork: 培訓出資料工程師,但我看那個課程已經是非常硬的了05/23 12:24
→ lovepork: 一到五 0900~1700 密集上五個月才能結業!05/23 12:25
推 lovepork: 所以假設我去上完資策會的資料工程師培訓,還要補足統計05/23 12:28
→ lovepork: 所的一些課程,才有資格去應付資料科學家所賦予的挑戰?05/23 12:28
→ lovepork: superalf大 能否點建議? 感謝! 05/23 12:29
不清楚資策會的課程內容所以沒法給建議。但就是不是要從資料工程師當起這個問題,應
該說資料科學家必須要會資料前處理跟資料準備,而這工作需要工程能力。
真實世界的資料什麼光怪陸離的情況都有。舉個例子,IBM的正式名稱是International B
usiness Machines Corporation,但它在正式專利文件裡面的拼法就有兩百多種。類似的
狀況有些是筆誤,有些則是故意的,刻意讓你無法用keyword search找到。像這種資料正
規化的工作你必須要有能力處理。
再拿影像辨識來說,原始資料可能有肉眼看不出來的背景,但看pixel value就很明顯。
如果不去背就直接拿去當訓練資料,模型可能根本不能用。去背這種事情也是工程問題。
再舉個例子,原始資料如果有雜訊(例如電話號碼不小心跟地址黏在一起),不處理直接
塞進SQL。之後查找時被逼的不得不使用like語法,那效能絕對讓你想哭。
像我也要分析log,但我只對其中一小部分有興趣,所以需要做data ETL,篩選log,做些
簡單的處理放到其他地方,之後再做分析。這也是工程。
機器學習的程式碼中,關鍵的可能只有幾行,要寫出那幾行很吃統計知識。然而另一方面
,要讓那幾行可以work,前面必須做非常多前處理的工作。
之前玩過kaggle上的一個分類問題。沒做前處理,準確率只有7%,做了前處理,就跳到37
%了。這差別是很大的。
※ 編輯: superalf (27.147.21.165), 05/24/2018 00:47:03
※ 編輯: superalf (27.147.21.165), 05/24/2018 00:48:59
推 lovepork: 感謝superalf大的回覆,受益匪淺。 05/24 15:39
→ lovepork: 看樣子,去資策會是勢所難免了。 05/24 15:40
推 voyager520: 朝聖推 05/25 23:32