作者ken83715 (冒煙的宏)
看板DataScience
標題[問題] 時間序列異常值處理
時間Sun Jun 10 12:28:39 2018
使用工具:python
問題內容:
最近在使用類神經做時間序列預測
在資料前處理時
想請問大家對於時間序列中的異常值是如何處理呢
假設有每天的資料 很多天 每天有一些規律
那算出每天5點的平均跟標準差
之後只要5點的資料超過標準差算是異常值
那直接移除掉把剩下的接起來是合理的嗎
或者是補一個平均值給它呢?
還是有別的作法~
謝謝~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.41.60.199
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1528604922.A.7CC.html
推 siscon: 亂補一通就好了吧 看你要直接補平均還是用個Gaussian隨機 06/11 02:23
推 goldflower: 如果missing沒有真的很多 我做一個類似問題的結果是 06/14 03:29
→ goldflower: 各種補值方法沒有顯著差異 06/14 03:29
→ goldflower: 試過補個沒看過的值 補平均值 補0 利用embedding 06/14 03:31
→ goldflower: 做mask 利用NN補值 這些其實在資料夠多下都差不多 06/14 03:31