推 abc2090614: ....這算大哉問等級的問題 (拉椅子等回答04/14 05:33
→ abc2090614: 我通常是參數會存到另一個檔裡04/14 05:34
→ abc2090614: /data 部分丟進.gitignore 會備份但盡量不動04/14 05:35
→ abc2090614: 在訓練模型時不能一直用新data 不然會變多頭馬車04/14 05:36
→ abc2090614: 取什麼data或一些business logic寫進.md或test cases04/14 05:37
→ abc2090614: 之前有試過用GNU make 不過不太順手04/14 05:38
→ abc2090614: 最近發現這個但還沒試過, 他的模板大致不錯, 有些04/14 05:39
→ abc2090614: 我不太同意就是: 04/14 05:39
→ abc2090614: google搜 cookie cutter data science04/14 05:39
謝謝 因為我主管是軟體部門的 對於ML他本來的認知是我和前輩每次只要碰script就應該
要commit阿 我怎麼想都覺得不太對 我目前也是覺得弄個txt檔紀錄比較好 不過只要我的
建議有理主管會聽我的
我來查查這個cookie cutter data science
※ 編輯: littleyuan (184.64.125.141), 04/14/2018 07:34:33
推 lucien0410: 推 簡單但高級實用的問題 04/14 08:21
→ Wush978: 你可以請前輩讀這篇文章做開始: 04/16 02:25
→ Wush978: 裡面具體地指出機器學習系統的挑戰 04/16 02:25
→ Wush978: 然後你們可以開始研究解法(這應該還是Open Problem) 04/16 02:26
→ Wush978: 我不覺得version control可以解決所有的問題, 但是如 04/16 02:26
→ Wush978: code / data schema 進 version control 應該只是基本 04/16 02:26
→ Wush978: 版上很多人給的建議是關於"code"方面的管理,下面有板友 04/16 02:28
→ Wush978: 推薦了"data"上的管理工具, 不過如果你們是每天收集新資 04/16 02:28
→ Wush978: 料更新模型的系統,那我想data dependency的挑戰人然很大 04/16 02:29