[討論] 機器學習如何做好version control???

作者littleyuan (baby)

看板DataScience

標題[討論] 機器學習如何做好version control???

時間Sat Apr 14 05:14:58 2018

大家好我是ML新手跟的前輩是很優秀的超強者但是前輩很不organized 寫的code總是不commit 主管希望下個項目之前我可以提出報告要如何改進並且希望前輩能跟進我是覺得ML和其他寫程式有點不同因為不斷測試參數每次調參數都commit的話好像太繁雜所以我一般是有了好結果才com mit一次不知道大家一般怎麼做的另一個問題是資料庫會更新更新過程那原來的model 不變讀到的數據就不一樣了那出來的結果也還是不一樣這樣要怎麼reproduce做出和原來一樣正確率?? 大家會寫個word檔紀錄每次Data的變化嗎? 想知道大家實際工作上是如何管理的呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 184.64.125.141 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523654101.A.7A3.html

推 abc2090614: ....這算大哉問等級的問題 (拉椅子等回答04/14 05:33

→ abc2090614: 我通常是參數會存到另一個檔裡04/14 05:34

→ abc2090614: /data 部分丟進.gitignore 會備份但盡量不動04/14 05:35

→ abc2090614: 在訓練模型時不能一直用新data 不然會變多頭馬車04/14 05:36

→ abc2090614: 取什麼data或一些business logic寫進.md或test cases04/14 05:37

→ abc2090614: 之前有試過用GNU make 不過不太順手04/14 05:38

→ abc2090614: 最近發現這個但還沒試過, 他的模板大致不錯, 有些04/14 05:39

→ abc2090614: 我不太同意就是: 04/14 05:39

→ abc2090614: google搜 cookie cutter data science04/14 05:39

謝謝因為我主管是軟體部門的對於ML他本來的認知是我和前輩每次只要碰script就應該要commit阿我怎麼想都覺得不太對我目前也是覺得弄個txt檔紀錄比較好不過只要我的建議有理主管會聽我的我來查查這個cookie cutter data science ※ 編輯: littleyuan (184.64.125.141), 04/14/2018 07:34:33

推 lucien0410: 推簡單但高級實用的問題 04/14 08:21

推 gus2: 可以參考https://www.comet.ml 04/15 03:56

→ Wush978: 你可以請前輩讀這篇文章做開始: 04/16 02:25

→ Wush978: https://research.google.com/pubs/pub43146.html 04/16 02:25

→ Wush978: 裡面具體地指出機器學習系統的挑戰 04/16 02:25

→ Wush978: 然後你們可以開始研究解法(這應該還是Open Problem) 04/16 02:26

→ Wush978: 我不覺得version control可以解決所有的問題, 但是如 04/16 02:26

→ Wush978: code / data schema 進 version control 應該只是基本 04/16 02:26

→ Wush978: 版上很多人給的建議是關於"code"方面的管理，下面有板友 04/16 02:28

→ Wush978: 推薦了"data"上的管理工具, 不過如果你們是每天收集新資 04/16 02:28

→ Wush978: 料更新模型的系統，那我想data dependency的挑戰人然很大 04/16 02:29