Re: [問題] 時間序列資料的訓練集切法

作者sma1033 (死馬)

看板DataScience

標題Re: [問題] 時間序列資料的訓練集切法

時間Sat Apr 13 08:02:11 2019

就是那3個字： No Free Lunch 你的問題說簡單也簡單，說困難也難知道答案的人不會輕易告訴你因為知識是有價的，而且非常昂貴你的問題說穿了就是：「我現在手上有一堆資料，但是我不知道資料之間的關係是什麼」而事實上你的資料之間的關連，可能是任一種雖然資料原本被紀錄的方式是按照時間順序記下的但是這並不代表資料彼此之間在時間軸上就有因果關係假設你已經知道過去10期的樂透開獎號碼 --> 所以代表有可能預測下一期的開獎號碼？你覺得這邏輯聽起來怎麼樣？ CNN是否能夠預測出來呢？如果CNN不行那RNN呢？網路架構那麼多種你要每種都試一下嗎？我隨便都可以推薦你100種喔我相信可能會有不服氣的鄉民跳出來說「股價變化跟樂透又不一樣，你怎知道不行」不服氣的人要不要證明看看，「股價的非隨機性」有多少而這些「非隨機」的成分，在扣掉各種成本之後又可以讓你有多少利潤空間呢動動腦，有益身心健康～ㄎㄎㄎ～ ※ 引述《avonasac0800 (Adolph)》之銘言： : 作業系統: Win 10 : 問題類別: RNN/CNN : 使用工具: Python3.6 + Keras/TensorFlow : 問題內容: : 各位大大晚安, : 小弟想請教, 如果我的資料如下所示(共1,000筆, 只是示意): : index date value : 0 20190101 5.1 : 1 20190102 6.6 : 2 20190103 4.8 : 3 20190104 2.7 : ... ... ... : ... ... ... : 999 2021xxxx 12 : 而我要以過去20天的資料預測第21天的數值, 如: : INDEX X Y : 0 [x0, x1, x2... x19] x20 : 1 [x1, x2, x3... x20] x21 : ... ... ... : ... ... ... : 979 [x979, x980... x998] x999 : 假設我要拿總資料的80%來當作訓練集, : 請問我可以將INDEX打亂後再拿裡面的80%出來嗎? : 或者非得拿INDEX[0:784]當作訓練集呢? : 若打亂後再加以訓練, : 其測試集(test)的MAE可以比未打亂的MAE少50%, : 所以才有這樣的疑問, : 我在書上及網路上看到的時間序列模型都是以INDEX[0:784]作為訓練集, : 但它們都沒有提及原因, : 只有一個人說到"你總不會想拿那麼遠的資料做測試吧". : 如果我就是想這樣建模型, 請問會有甚麼潛在的問題嗎? : 請各位大大不吝賜教, 謝謝orz -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.231.190.159 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1555113734.A.5DA.html

推 kokolotl: 有一派認為股價是random walk XD 04/13 11:25

推 yoyololicon: 學長這麼來勁特別回一篇XD 04/13 18:05

→ sma1033: 也許股價並不是pure random，但我想對99%的人來說應該是 04/13 18:55

→ sma1033: pseudo random跑不掉的，也就是說沒有內線就是random XD 04/13 18:55

推 kokolotl: 小蝦米沒內線 XD 04/13 20:24