作者lucien0410 (lucein)
看板DataScience
標題Re: [討論] 機器學習如何做好version control???
時間Sat Apr 14 08:47:58 2018
讓小孬孬我來獻醜一下
不太確定你的計畫的細節 但聽起來好像是 每次調參數
(這裡的參數應該是指超參數的意思吧?)
都要*手動*改script
如果是這樣的話 你們的這個script寫的不好用
應該要弄一個類似入口 控制台的地方
這個控制台可以讓你輸入訓練資料和超參數 並且*自動*存下log
而log 大概要紀錄下:
(1).time stamp; (2) 訓練資料版本資訊; (3) 超參數設定; (4)測試成績
實際的作法應該是用類似 Makefile Make 的方式
或是寫一個小script 這個小script 要求你輸入 (2)跟 (3)
接著他呼叫你的訓練腳本 把(2)(3)傳給訓練腳本 開始訓練測試
最後這個小script就輸出 (1)(2)(3)(4) 存在log裡
log可能長的像csv 或tsv 千萬不要用word阿
不知道我有沒有回答到問題 還是我根本誤會了 你參考看看 :)
※ 引述《littleyuan (baby)》之銘言:
: 大家好
: 我是ML新手 跟的前輩是很優秀的超強者
: 但是前輩很不organized 寫的code總是不commit
: 主管希望下個項目之前我可以提出報告要如何改進並且希望前輩能跟進
: 我是覺得ML和其他寫程式有點不同
: 因為不斷測試參數 每次調參數都commit的話好像太繁雜 所以我一般是有了好結果才com
: mit一次 不知道大家一般怎麼做的
: 另一個問題是資料庫會更新 更新過程那原來的model 不變讀到的數據就不一樣了那出來
: 的結果也還是不一樣
: 這樣要怎麼reproduce做出和原來一樣正確率??
: 大家會寫個word檔紀錄每次Data的變化嗎?
: 想知道大家實際工作上是如何管理的呢?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 68.230.60.98
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523666881.A.BC5.html
推 Cprogramming: 推不要用word 04/14 09:16
→ littleyuan: 謝謝你! 因為我和前輩都不是寫程式出身所以很多都是 04/14 10:09
→ littleyuan: 自己摸索 前輩理論很強 我則是對公司產品domain knoel 04/14 10:09
→ littleyuan: edge很熟但是ML方面是新手主管要我ML能有一天和前輩 04/14 10:09
→ littleyuan: 能平起平坐所以開始要我lead一些項目累積經驗 以後可 04/14 10:09
→ littleyuan: 能還會問很多奇怪的問題謝謝大家的指教了! 04/14 10:09
→ lucien0410: 你們公司如果有其他的程式設計師 可以請他們幫你作這 04/14 10:15
→ lucien0410: 這個小script很容易寫 碼農等級的就能寫出來了 04/14 10:16
→ lucien0410: 可能10行以內 就可以寫完了 04/14 10:16
→ lucien0410: 我想通則應該是這樣的 像這種重複性高 人類又很容易 04/14 10:22
→ lucien0410: 犯錯的任務(e.g. 7打成8的typo 就該讓電腦幫你自動做 04/14 10:24