作者supersnoII (想い出は溶けない..)
看板DataScience
標題Re: [討論] 機器學習如何做好version control???
時間Mon Apr 16 00:18:13 2018
有一個比較新的工具叫dvc (data version control)
詳情:
https://github.com/dataversioncontrol/dvc
它的核心概念大概是這樣︰
1) 當你新增data時,產生一組md5 hash作為cache路徑,而這個路徑
是data的hard link。這些資訊被存在.dvc檔中。
2) 當你操作這些data時,不論是跑script還是command,一樣產生.dvc
檔案,而且記錄指令(cmd)、輸入(deps)跟輸出(outs)。
3) 不論是1還是2所產生的.dvc檔案,都像進code一樣進到git裡面。
注意這裡是進.dvc檔而已,不是進真的data。
4) 對原本的pipeline作修改之後(ex: 改preprocessing),只要下一
行指令就可以馬上reproduce整個pipeline的結果。
5) data本身可以push到s3或gcp storage,也可以直接把cache資料夾
分享給同事,很輕易可以重現結果。
6) 因為是用git,所以切/合branch都很容易,實驗的管理變得比較靈活。
希望有幫助
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.72.213.103
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523809096.A.A39.html
推 abc2090614: 看了一下, 他想法滿有趣的, 研究看看 04/16 02:49
→ abc2090614: 看了一下他的tutorial 主要還是講modeling 04/16 02:52
→ abc2090614: 如果是作report或是exploratory analysis不知道有沒 04/16 02:52
→ abc2090614: 有類似的工具 04/16 02:52
→ supersnoII: dvc就是用git做資料版本控制,其他需求就是開branch 04/16 08:23
→ supersnoII: 再用其他工具,能上線再合到production branch 04/16 08:23