推 thefattiger: 你真的有母體資料的話,根本不需要建模阿 06/27 11:34
→ thefattiger: 大數據在大也是母體的滄海一粟 06/27 11:34
→ thefattiger: *再 06/27 11:34
→ sleepwu: 不好意思沒說清楚 我說的母體就是公司蒐集到的全部資料 06/27 11:43
→ sleepwu: 資料科學家用公司的母體再抽樣去建模 06/27 11:44
推 hipitcher: 你不可能擁有母體 除非你是上帝 06/27 12:25
→ f496328mm: 先抽樣做 demo 吧,總不可能剛開始data就全丟下去 06/27 13:28
→ f496328mm: 假設10億筆,train 一次要1小時 06/27 13:28
→ f496328mm: 那當然是先拿部分 data 做模擬 06/27 13:28
→ f496328mm: 最後 feature, model 都找完了,再丟所有 data 06/27 13:29
→ sleepwu: f大 所以是訓練時節省時間跟硬體才抽樣嗎 06/27 14:52
→ poiuy8568: 做訓練一次下去要跑很久,而且容易有overfitting。此外 06/27 17:13
→ poiuy8568: 也跟資料特性有關,搞不好他們是做stratified sampling 06/27 17:13
→ poiuy8568: 之類的。原因很多 06/27 17:13
→ sxy67230: 全部下去一起train你怎麼知道泛化能力會如何?機器學習 06/27 20:07
→ sxy67230: 是希望能盡量找到一個算法通用,全部下去train你完全不 06/27 20:07
→ sxy67230: 知道之後進來的新資料會不會fit啊。 06/27 20:07
→ sxy67230: 而且有可能fit你們公司全部的數據,準確度都很高,但是 06/27 20:09
→ sxy67230: 實際上是overfit,連樣本的錯誤部分機器都一起學習了, 06/27 20:09
→ sxy67230: 這樣機器學習完全就沒意義了 06/27 20:09
→ sleepwu: 原來還有過度學習的問題 06/28 00:10
→ sxy67230: 對,而且還有可能你們公司的樣本有不均衡的問題,隨機 06/28 07:49
→ sxy67230: 根據你們公司的類別抽樣加上訓練不同的模型做集成其實是 06/28 07:49
→ sxy67230: 可以增加總體模型的魯棒性的 06/28 07:49
→ sxy67230: 一般你看到市面上成熟的產品多半都會去做集成,聯合多 06/28 07:52
→ sxy67230: 個模型提升效果 06/28 07:52
→ sleepwu: 感恩 06/28 10:45
→ GTX9487: 建議搜尋 霍金學生&組合爆炸 07/21 20:24