精華區beta DataScience 關於我們 聯絡資訊
有一個比較新的工具叫dvc (data version control) 詳情: https://github.com/dataversioncontrol/dvc 它的核心概念大概是這樣︰ 1) 當你新增data時,產生一組md5 hash作為cache路徑,而這個路徑 是data的hard link。這些資訊被存在.dvc檔中。 2) 當你操作這些data時,不論是跑script還是command,一樣產生.dvc 檔案,而且記錄指令(cmd)、輸入(deps)跟輸出(outs)。 3) 不論是1還是2所產生的.dvc檔案,都像進code一樣進到git裡面。 注意這裡是進.dvc檔而已,不是進真的data。 4) 對原本的pipeline作修改之後(ex: 改preprocessing),只要下一 行指令就可以馬上reproduce整個pipeline的結果。 5) data本身可以push到s3或gcp storage,也可以直接把cache資料夾 分享給同事,很輕易可以重現結果。 6) 因為是用git,所以切/合branch都很容易,實驗的管理變得比較靈活。 希望有幫助 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.72.213.103 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523809096.A.A39.html
abc2090614: 看了一下, 他想法滿有趣的, 研究看看 04/16 02:49
abc2090614: 看了一下他的tutorial 主要還是講modeling 04/16 02:52
abc2090614: 如果是作report或是exploratory analysis不知道有沒 04/16 02:52
abc2090614: 有類似的工具 04/16 02:52
supersnoII: dvc就是用git做資料版本控制,其他需求就是開branch 04/16 08:23
supersnoII: 再用其他工具,能上線再合到production branch 04/16 08:23