看板 DataScience 關於我們 聯絡資訊
最近進行一些電腦視覺的專案, 發現實在很難確認收集來的資料(圖片)到底夠不夠貼近真實世界的狀況。 舉例來說,我用一個開放資料集,以這個資料集為基礎上可以取得相當不錯的訓練成果, 但發現在真實世界的推論卻達不到標準。 回過頭來看,如果要加資料,也不知道可以怎麼加, 要加上哪種資料才可以讓模型更 robust 想請教大家,在收集資料上面,都是怎麼確保資料的品質 ? 不管是圖像資料或是量化資料, 要用什麼方式或從什麼面向來確定自己的資料本身是沒問題的呢 ? -- Ο ο 。 ο ○ 。 ○ ° ° ο Ο -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.192.106 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1590545693.A.2A0.html
p122607: 從你測試的真實世界中擷取資料呀 05/27 15:29
ddavid: 基本上這是一個有點弔詭的問題,如果你能驗證你的資料是否 05/27 17:52
ddavid: 跟真實世界相同或相近,那表示你已經能夠知道真實世界資料 05/27 17:53
ddavid: 的分佈了,那哪還需要Learning一個model來學習呢XD 05/27 17:54
ddavid: 基本上你只能盡可能讓你收集資料的手段合理公平均勻,但是 05/27 17:55
ddavid: 談不到什麼驗證 05/27 17:55
jojojen: 你有用k-fold cross-validation排除你的模型可能只適用於 05/30 16:53
jojojen: 某一特定訓練集跟測試集的問題嗎? 05/30 16:53
WengeKong: you will never know 06/07 04:11
aidansky0989: 檢查一下學習曲線,應該是過擬合 06/07 19:07
luli0034: 推 你永遠不能知道未來的世界(真實資料)會長什麼樣 06/10 12:27