Re: [討論] 機器學習如何做好version control???

作者supersnoII (想い出は溶けない..)

看板DataScience

標題Re: [討論] 機器學習如何做好version control???

時間Mon Apr 16 00:18:13 2018

有一個比較新的工具叫dvc (data version control) 詳情: https://github.com/dataversioncontrol/dvc 它的核心概念大概是這樣︰ 1) 當你新增data時，產生一組md5 hash作為cache路徑，而這個路徑是data的hard link。這些資訊被存在.dvc檔中。 2) 當你操作這些data時，不論是跑script還是command，一樣產生.dvc 檔案，而且記錄指令(cmd)、輸入(deps)跟輸出(outs)。 3) 不論是1還是2所產生的.dvc檔案，都像進code一樣進到git裡面。注意這裡是進.dvc檔而已，不是進真的data。 4) 對原本的pipeline作修改之後(ex: 改preprocessing)，只要下一行指令就可以馬上reproduce整個pipeline的結果。 5) data本身可以push到s3或gcp storage，也可以直接把cache資料夾分享給同事，很輕易可以重現結果。 6) 因為是用git，所以切/合branch都很容易，實驗的管理變得比較靈活。希望有幫助 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.72.213.103 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523809096.A.A39.html

推 abc2090614: 看了一下, 他想法滿有趣的, 研究看看 04/16 02:49

→ abc2090614: 看了一下他的tutorial 主要還是講modeling 04/16 02:52

→ abc2090614: 如果是作report或是exploratory analysis不知道有沒 04/16 02:52

→ abc2090614: 有類似的工具 04/16 02:52

→ supersnoII: dvc就是用git做資料版本控制，其他需求就是開branch 04/16 08:23

→ supersnoII: 再用其他工具，能上線再合到production branch 04/16 08:23