看板 DataScience 關於我們 聯絡資訊
小弟目前還是菜逼八大學生,最近做資料分析的專題覺得有點渺茫,感覺都是在拿套件做 一些固定的流程 ex: 搜集資料、feature selection、套sklearn的model或用pytorch之類的package寫一個NN, 我覺得叫一個沒學過機器學習的高中生學一下python也做的出來我現在在做的事,那我 學這些理論的意義到底在哪? 請各位大神指點一下 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.113.121.11 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1555930500.A.6BA.html
sean50301: 嚴格上來說你只學到步驟 沒學到理論04/22 19:05
sxy67230: data scientist很多時候都在分析資料,處理資料的脈絡,04/22 19:34
sxy67230: 了解你的資料,反而model訓練都是次要的,資料前處理做04/22 19:34
sxy67230: 得好,用什麼方法其實沒太大的差異。你還沒領會到精髓,04/22 19:34
sxy67230: 現成的dataset都是幫你處理好的,你很難體會到。04/22 19:34
kokolotl: 從髒資料兜到能用的,中間省略,分析完要幹嘛04/22 19:41
kokolotl: 前後吃經驗的卡好玩04/22 19:41
sxy67230: 還有客戶有時候給你一大坨髒資料,你問他想做什麼,他回04/22 19:55
sxy67230: 不知道,我想做很酷很炫又很AI的東西。客戶通常的意思就04/22 19:55
sxy67230: 是我把資料給你,你能做出跟我心裡想的一樣的,跟我一04/22 19:55
sxy67230: 樣有智慧的東西。04/22 19:55
germun: 因為更深的理論不是一般大學生學得會的 先把大學基礎學好 04/22 20:55
有修過113電信的ml跟看過林軒田的ml ,但是教的model在sklearn都有了吧@@好像最後也 只要無腦call那些寫好的function就好
germun: 有興趣等上研究所後再去探討吧 除非你大學課都修完了很閒04/22 20:56
germun: 可以去找教授旁聽一些研究所課程04/22 20:56
germun: 如果你連研究所課程都覺得太簡單了 恭喜你萬中選一的人才 04/22 20:57
germun: 找個教授簽下去吧 (? 04/22 20:57
※ 編輯: nctukmdick (140.113.121.11), 04/22/2019 21:02:36
f496328mm: model 在 sklearn 都有,這不是重點 04/22 21:46
f496328mm: model 大家都會 call 04/22 21:47
f496328mm: 你直接接觸實務面,你就會得到答案了 04/22 21:48
f496328mm: 單就蒐集資料來講,你要每天更新 data、備份 04/22 21:49
f496328mm: 確保資料正確性,然後設計API給別人call 04/22 21:49
f496328mm: 然後清理資料,從data中找出價值 04/22 21:50
f496328mm: 事前沒有人知道怎麼做,你要自己找出方向 04/22 21:50
f496328mm: 單就你現在的專題來說,課程結束後,作品要持續開發 04/22 21:52
f496328mm: 不要像一堆人,專題 or paper結束後,東西就消失不見了 04/22 21:53
TuCH: 這些只是工具 在對的地方用對的工具製造產值才有價值 04/22 22:51
sxy67230: 還有如果你真的覺得處理資料脈絡很low,那你可以往更高 04/22 23:42
sxy67230: 的算法前進,物體識別跟NLU一堆需要突破的技術瓶頸,像 04/22 23:42
sxy67230: 圖像識別跟人類理解物體的方式仍然有差距,NLU也是。真 04/22 23:42
sxy67230: 的覺得自己很厲害的,歡迎你來突破。 04/22 23:42
ZuiYang: 想法跟1樓比較像,流程真的不外乎就是那幾個步驟,難的是 04/23 14:20
ZuiYang: 每個步驟都有自己的domain know how,model別人都幫你包 04/23 14:20
ZuiYang: 好了,你說大家都可以直接call,那不就代表大家都在一個 04/23 14:20
ZuiYang: 起跑線上,那要怎樣才能贏別人呢? 04/23 14:20
ice80712: 代碼跟工程能力才是鐵飯碗 04/23 16:56
sma1033: call model人人都會,所以當然know how是在別的地方 04/23 17:20
sma1033: 你覺得很簡單,一方面也是因為你做的是沒價值的事 04/23 17:21
sma1033: 請記住一個通則:「困難的事情不一定有價值,但是簡單的 04/23 17:23
sma1033: 事情一般都沒價值」,一件事會做的人多當然就沒啥價值 04/23 17:24
sma1033: 因為重點本來就不是「你能做什麼」,而是「你能贏過誰」 04/23 17:25
hahaxd78: 你可以去試試打一場kaggle, 你就會知道你跟別人的差距在 04/23 17:32
hahaxd78: 哪 04/23 17:32
roccqqck: 我覺得市因為你拿到的資料都是別人處理過得 04/23 20:30
roccqqck: 通常資料預處理就花超多時間 04/23 20:31
thefattiger: ML/DL的理論本來就不難,核心算法的改進也輪不到你 04/23 21:39
thefattiger: 重點在應用,那就是特定領域的知識要強了 04/23 21:39
Kazimir: 高中生能會的事情多了 學個四年還能變大學生呢。 04/23 22:41
erre: 博士都call package做ai了,跟上好嗎… 04/24 09:51
ice80712: 在台灣搞理論研究只會餓死 應用才是出路 04/24 11:10
sma1033: 做個實際有用的模型來看看? 04/24 11:50
ruokcnn: 自己寫個爬蟲抓資料自己做預測題目就知道了啦 04/24 17:10
ruokcnn: 光整理資料跟想feature就可以搞死你了 04/24 17:10
abc53: 看paper 實作paper內容也太簡單嗎 04/24 20:01
abc53: 找一篇有提供原始碼的paper跟著做做看 04/24 20:02
patrick2dot0: 可以看一些paper 04/24 21:38
patrick2dot0: 看看這領域大家在研究什麼 04/24 21:38
lukelove: 大家都無腦call 但是有人能拿名 有人卻永遠銅牌等級 04/25 00:36
sxy67230: 也沒有到無腦call啦,但是確實不需要在從底層實作上來, 04/25 08:52
sxy67230: 就像吳教授說的,有現成的幹嘛不用,你自己從0開始實現 04/25 08:52
sxy67230: ,到時候bug一堆,不如一開始就call sklearn、tensorflo 04/25 08:52
sxy67230: w用用成熟的model,這才是正確的商業思維。要不然企業 04/25 08:52
sxy67230: 哪裡等你花時間在算法上,除非你的公司是google或deepmi 04/25 08:52
sxy67230: nd,要不然還是多花點心思在可控的範圍內,弄出漂亮的特 04/25 08:52
sxy67230: 徵給模型方便訓練。 04/25 08:52
sxy67230: 大家都想往通用算法前進,在這領域的誰不想做出一個真 04/25 09:03
sxy67230: 正完勝圖靈測試的機器,而不是靠這些trick,但能擠進窄 04/25 09:03
sxy67230: 門的真的少之又少,大多都是改改算法小部分不完美的部 04/25 09:03
sxy67230: 分或是應用到不同領域上。 04/25 09:03
liton: 特征沒做好 調參調到老 04/25 15:37
Jyery: 找coursera來看 04/25 16:44
VIATOR: kaggle幾乎都是用套件,可是不是每個人能用的一樣好 04/30 04:41
goldflower: 最近有論文是丟raw就變強惹 我們自己轉換的弱弱的 04/30 15:39
followwar: 113 DL不修嗎? 05/08 13:33