[問題] 怎麼確保資料分布跟真實世界相近 ?

作者sssh (叫我松高魂 ~~)

看板DataScience

標題[問題] 怎麼確保資料分布跟真實世界相近 ?

時間Wed May 27 10:14:48 2020

最近進行一些電腦視覺的專案，發現實在很難確認收集來的資料(圖片)到底夠不夠貼近真實世界的狀況。舉例來說，我用一個開放資料集，以這個資料集為基礎上可以取得相當不錯的訓練成果，但發現在真實世界的推論卻達不到標準。回過頭來看，如果要加資料，也不知道可以怎麼加，要加上哪種資料才可以讓模型更 robust 想請教大家，在收集資料上面，都是怎麼確保資料的品質 ? 不管是圖像資料或是量化資料，要用什麼方式或從什麼面向來確定自己的資料本身是沒問題的呢 ? -- ◤ ◤ ◣ ● Ο ο ◤ ◣ ◣ ◣ ◤ 。 ο ○ 。 ○ °● ◣ ≡ ◤ ° ο Ο ◣ ◤ ◤ ◣ ≡ ◤ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.192.106 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1590545693.A.2A0.html

推 p122607: 從你測試的真實世界中擷取資料呀 05/27 15:29

推 ddavid: 基本上這是一個有點弔詭的問題，如果你能驗證你的資料是否 05/27 17:52

→ ddavid: 跟真實世界相同或相近，那表示你已經能夠知道真實世界資料 05/27 17:53

→ ddavid: 的分佈了，那哪還需要Learning一個model來學習呢XD 05/27 17:54

→ ddavid: 基本上你只能盡可能讓你收集資料的手段合理公平均勻，但是 05/27 17:55

→ ddavid: 談不到什麼驗證 05/27 17:55

推 jojojen: 你有用k-fold cross-validation排除你的模型可能只適用於 05/30 16:53

→ jojojen: 某一特定訓練集跟測試集的問題嗎？ 05/30 16:53

→ WengeKong: you will never know 06/07 04:11

推 aidansky0989: 檢查一下學習曲線，應該是過擬合 06/07 19:07

推 luli0034: 推你永遠不能知道未來的世界（真實資料）會長什麼樣 06/10 12:27