[討論] 股票當沖模型是否符合MDP的特性？

作者yuwenche (yuwenche)

看板DataScience

標題[討論] 股票當沖模型是否符合MDP的特性？

時間Mon Oct 23 14:05:49 2023

我有一個股票當沖模型：狀態有6個state，分別為 t、t-1、t-2、t-3的價格對昨日收盤的值取對數，即 log(Pt/Pc)、log(Pt-1/Pc)、 log(Pt-2/Pc) 、 log(Pt-3/Pc)；另外兩個則是t時間的價格(標準化)和部位(-1、0、+1)。動作有三個：買進(+1) 、賣出(-1) 、不動作(0) 。教科書說MDP(Markov Decision Process)是強化學習(Reinforcement Learning)的一項重要性質，因為有了這個性質，我們才能只針對當前的狀態作出動作選擇，而無需去考慮以前的狀態。請問這個模型是否符合MDP的特性？請不要拿『股票漲跌可預測嗎？』這種哲學問題，或『影響股價的因素不僅是歷史股價，還有更多的因素，如公司的近况、總經數據 …』這類社會科學的觀點來討論，請針對數學模型來討論，謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.241.21.152 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1698041151.A.491.html

→ chang1248w: 這類文獻應該很多吧 10/23 14:20

→ kriswu8021: 你感覺好像沒有很懂mdp 10/25 22:10

推 penolove5566: POMDP 10/27 13:55

推 a22735557: 同二樓 10/27 18:35

推 pinner: 為啥沒有很懂定義都說出來了只是不知道自己的state有沒 10/28 10:44

→ pinner: 有符合不是嗎 10/28 10:44

→ cipherman: 懂的話就直接拿price data驗證了，不會在這裡問 11/01 15:23

→ yuwenche: 如果真懂就寫些有意義的東西，只是擺出一付冷嘲的態度 11/07 09:26

→ yuwenche: 不代表你就懂。That sucks. 11/07 09:26

→ kriswu8021: 我沒有冷嘲熱諷啊我只有說你好像沒有很懂 11/07 16:09

→ kriswu8021: 你要不要從最基礎的開始像是寫一下你覺得State Acti 11/07 16:11

→ kriswu8021: on Transition是什麼連這種effort都沒有不就只是伸 11/07 16:11

→ kriswu8021: 手牌想要別人告訴你答案嗎 11/07 16:11

→ kriswu8021: 你今天做了action 那transition是什麼 reward是什麼 11/07 16:13

→ kriswu8021: 這種應該很基本的吧寫得出來不就知道了嗎 11/07 16:13

→ kriswu8021: 唉算了直接講結論你做了這些action可是下一個state 11/07 16:24

→ kriswu8021: 會因為你做的action改變嗎不會啊這樣你要說他是MDP 11/07 16:24

→ kriswu8021: 嗎可能吧可是這種情況下你做什麼action根本就沒差 11/07 16:24

→ kriswu8021: 吧 11/07 16:24

→ kriswu8021: 問題就是你的state不應該設定成什麼t t-1之類的價格 11/07 16:24

→ kriswu8021: 而是應該是你的action可以影響的如果你有好好想過的 11/07 16:24

→ kriswu8021: 話大概就不會問什麼是不是MDP的問題了吧 11/07 16:24

→ cipherman: 樓上真好心。這裡補充一下，其實action不影響下一個 11/11 22:15

→ cipherman: state，其實問題就退化成bandit problem，算MDP的特例 11/11 22:17

→ cipherman: 這個問題其實照MDP的定義，然後拿data驗一下就有答案了 11/11 22:19

→ cipherman: 但要用bandit的方式做成strategy還要一些前提成立才行 11/11 22:24

→ cipherman: 最後這裡加點有意義的東西: 網路上沒有人義務教會你 11/11 22:25

推 DrizztMon: 真的 11/12 21:38

→ chang1248w: 說實在，沒有社經上的假設，那模型就沒辦法應用 11/16 12:28

→ yuwenche: 我已經近一個月沒上這個頻道了，直到昨天才看到留言。 12/02 09:00

→ yuwenche: 實際上github或網路上已有不少類似的例子，大部分也都 12/02 09:01

→ yuwenche: 採取時間差分的作法(t,t-1,t-2…) ，難道他們都錯了嗎? 12/02 09:03

→ yuwenche: 股價本身或許不具MDP特性，但幾個相連的股價至少就是 12/02 09:05

→ yuwenche: POMDP，這就是將non-MDP轉換為MDP的手段之一。另外， 12/02 09:06

→ yuwenche: agent是藉著跟環境(state)互動改變自身的參數，而對下一 12/02 09:07

→ yuwenche: 次作出最好的action，它是沒辦法改變state狀態的。最後 12/02 09:09

→ yuwenche: ，這個題目的困難程度遠超過gym的環境，因它是一個非穩 12/02 09:10

→ yuwenche: 態(non-stationary)的環境。 12/02 09:11

→ diabolica: 同二樓~ 12/03 08:35

推 ProTrader: 以前我作過類似的議題就單純分析K線型態預測漲跌 12/30 11:23

→ ProTrader: 記得最後認為是交易價值太低放棄沒有正式回測過 12/30 11:26

→ ProTrader: 我以前只會算馬可夫鍊...現在也是 MDP是看這篇才知道 12/30 11:29

→ ProTrader: 回到問題我認同2樓說要找action可以影響的state 12/30 11:30

→ ProTrader: 因為這才比較像普通人說的當沖交易實況 12/30 11:31

→ ProTrader: 如果是市場主力想操控股價那引入過去價格當state OK 12/30 11:33

→ ProTrader: 最重要的你既然有模型有策略直接回測看績效不就好了 12/30 11:38

→ ProTrader: 你要是有回測結果可以討論的題材會比較多 12/30 11:39