看板 DataScience 關於我們 聯絡資訊
使用工具:python 問題內容: 最近在使用類神經做時間序列預測 在資料前處理時 想請問大家對於時間序列中的異常值是如何處理呢 假設有每天的資料 很多天 每天有一些規律 那算出每天5點的平均跟標準差 之後只要5點的資料超過標準差算是異常值 那直接移除掉把剩下的接起來是合理的嗎 或者是補一個平均值給它呢? 還是有別的作法~ 謝謝~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.41.60.199 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1528604922.A.7CC.html
siscon: 亂補一通就好了吧 看你要直接補平均還是用個Gaussian隨機 06/11 02:23
goldflower: 如果missing沒有真的很多 我做一個類似問題的結果是 06/14 03:29
goldflower: 各種補值方法沒有顯著差異 06/14 03:29
goldflower: 試過補個沒看過的值 補平均值 補0 利用embedding 06/14 03:31
goldflower: 做mask 利用NN補值 這些其實在資料夠多下都差不多 06/14 03:31