作者CharlieL (心平氣和)
看板DataScience
標題Re: [問題] 時間序列資料的訓練集切法
時間Sun Apr 14 01:44:05 2019
拙作「機器學習基石」第十六講第十頁有個小故事
https://www.csie.ntu.edu.tw/~htlin/mooc/doc/16_handout.pdf
可能可以幫助到您的困惑。加油!
※ 引述《avonasac0800 (Adolph)》之銘言:
: 作業系統: Win 10
: 問題類別: RNN/CNN
: 使用工具: Python3.6 + Keras/TensorFlow
: 問題內容:
: 各位大大晚安,
: 小弟想請教, 如果我的資料如下所示(共1,000筆, 只是示意):
: index date value
: 0 20190101 5.1
: 1 20190102 6.6
: 2 20190103 4.8
: 3 20190104 2.7
: ... ... ...
: ... ... ...
: 999 2021xxxx 12
: 而我要以過去20天的資料預測第21天的數值, 如:
: INDEX X Y
: 0 [x0, x1, x2... x19] x20
: 1 [x1, x2, x3... x20] x21
: ... ... ...
: ... ... ...
: 979 [x979, x980... x998] x999
: 假設我要拿總資料的80%來當作訓練集,
: 請問我可以將INDEX打亂後再拿裡面的80%出來嗎?
: 或者非得拿INDEX[0:784]當作訓練集呢?
: 若打亂後再加以訓練,
: 其測試集(test)的MAE可以比未打亂的MAE少50%,
: 所以才有這樣的疑問,
: 我在書上及網路上看到的時間序列模型都是以INDEX[0:784]作為訓練集,
: 但它們都沒有提及原因,
: 只有一個人說到"你總不會想拿那麼遠的資料做測試吧".
: 如果我就是想這樣建模型, 請問會有甚麼潛在的問題嗎?
: 請各位大大不吝賜教, 謝謝orz
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.171.160.250
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1555177447.A.FA9.html
推 moneylys99: 推田神大師!! 04/14 02:10
推 mimiya: 推田神大師 04/14 07:28
推 st1009: 田神!!! 04/14 08:15
推 xddd333: 太神啦 04/14 09:34
推 choral: 太神啦! 04/14 09:53
推 kokolotl: 推! 04/14 10:35
→ sxy67230: 有神快拜! 04/14 13:35
推 sma1033: 推神來電!! 04/14 16:22
推 jimmy40124: 推 04/14 16:37
推 ruokcnn: 田哥 04/14 21:46
推 purpleboy01: 有神快拜 04/15 23:57
推 abc53: 推推 04/17 00:33
推 gloriousCJH: 推 04/17 11:21
→ goldflower: 田神推個 04/17 15:41
推 HYDE1986: 有神快拜!! 04/19 10:54
推 OnePiecePR: 有神 04/19 13:55
推 ylc500224: 推推 04/24 00:41
推 PyTorch: 田神! 04/25 20:46
推 r51303: 推田神!!! 04/30 18:51
推 chengyou: 朝聖推! 06/12 22:41
推 appleseed: 田神!跪惹 07/19 20:27