看板 DataScience 關於我們 聯絡資訊
我有一個股票當沖模型:狀態有6個state,分別為 t、t-1、t-2、t-3的價格對昨日收盤 的值取對數,即 log(Pt/Pc)、log(Pt-1/Pc)、 log(Pt-2/Pc) 、 log(Pt-3/Pc);另外兩 個則是t時間的價格(標準化)和部位(-1、0、+1)。動作有三個:買進(+1) 、賣出(-1) 、不動作(0) 。 教科書說MDP(Markov Decision Process)是強化學習(Reinforcement Learning)的一項重 要性質,因為有了這個性質,我們才能只針對當前的狀態作出動作選擇,而無需去考慮以 前的狀態。請問這個模型是否符合MDP的特性? 請不要拿『股票漲跌可預測嗎?』這種哲學問題,或『影響股價的因素不僅是歷史股價, 還有更多的因素,如公司的近况、總經數據 …』這類社會科學的觀點來討論,請針對數學 模型來討論,謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.241.21.152 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1698041151.A.491.html
chang1248w: 這類文獻應該很多吧 10/23 14:20
kriswu8021: 你感覺好像沒有很懂mdp 10/25 22:10
penolove5566: POMDP 10/27 13:55
a22735557: 同二樓 10/27 18:35
pinner: 為啥沒有很懂 定義都說出來了 只是不知道自己的state有沒 10/28 10:44
pinner: 有符合不是嗎 10/28 10:44
cipherman: 懂的話就直接拿price data驗證了,不會在這裡問 11/01 15:23
yuwenche: 如果真懂就寫些有意義的東西,只是擺出一付冷嘲的態度 11/07 09:26
yuwenche: 不代表你就懂。That sucks. 11/07 09:26
kriswu8021: 我沒有冷嘲熱諷啊 我只有說你好像沒有很懂 11/07 16:09
kriswu8021: 你要不要從最基礎的開始 像是寫一下你覺得State Acti 11/07 16:11
kriswu8021: on Transition是什麼 連這種effort都沒有不就只是伸 11/07 16:11
kriswu8021: 手牌想要別人告訴你答案嗎 11/07 16:11
kriswu8021: 你今天做了action 那transition是什麼 reward是什麼 11/07 16:13
kriswu8021: 這種應該很基本的吧 寫得出來不就知道了嗎 11/07 16:13
kriswu8021: 唉算了直接講結論 你做了這些action可是下一個state 11/07 16:24
kriswu8021: 會因為你做的action改變嗎 不會啊 這樣你要說他是MDP 11/07 16:24
kriswu8021: 嗎 可能吧 可是這種情況下你做什麼action根本就沒差 11/07 16:24
kriswu8021: 吧 11/07 16:24
kriswu8021: 問題就是你的state不應該設定成什麼t t-1之類的價格 11/07 16:24
kriswu8021: 而是應該是你的action可以影響的 如果你有好好想過的 11/07 16:24
kriswu8021: 話大概就不會問什麼是不是MDP的問題了吧 11/07 16:24
cipherman: 樓上真好心。這裡補充一下,其實action不影響下一個 11/11 22:15
cipherman: state,其實問題就退化成bandit problem,算MDP的特例 11/11 22:17
cipherman: 這個問題其實照MDP的定義,然後拿data驗一下就有答案了 11/11 22:19
cipherman: 但要用bandit的方式做成strategy還要一些前提成立才行 11/11 22:24
cipherman: 最後這裡加點有意義的東西: 網路上沒有人義務教會你 11/11 22:25
DrizztMon: 真的 11/12 21:38
chang1248w: 說實在,沒有社經上的假設,那模型就沒辦法應用 11/16 12:28
yuwenche: 我已經近一個月沒上這個頻道了,直到昨天才看到留言。 12/02 09:00
yuwenche: 實際上github或網路上已有不少類似的例子,大部分也都 12/02 09:01
yuwenche: 採取時間差分的作法(t,t-1,t-2…) ,難道他們都錯了嗎? 12/02 09:03
yuwenche: 股價本身或許不具MDP特性,但幾個相連的股價至少就是 12/02 09:05
yuwenche: POMDP,這就是將non-MDP轉換為MDP的手段之一。另外, 12/02 09:06
yuwenche: agent是藉著跟環境(state)互動改變自身的參數,而對下一 12/02 09:07
yuwenche: 次作出最好的action,它是沒辦法改變state狀態的。最後 12/02 09:09
yuwenche: ,這個題目的困難程度遠超過gym的環境,因它是一個非穩 12/02 09:10
yuwenche: 態(non-stationary)的環境。 12/02 09:11
diabolica: 同二樓~ 12/03 08:35
ProTrader: 以前我作過類似的議題 就單純分析K線型態預測漲跌 12/30 11:23
ProTrader: 記得最後認為是交易價值太低放棄 沒有正式回測過 12/30 11:26
ProTrader: 我以前只會算馬可夫鍊...現在也是 MDP是看這篇才知道 12/30 11:29
ProTrader: 回到問題 我認同2樓說要找action可以影響的state 12/30 11:30
ProTrader: 因為這才比較像普通人說的當沖交易實況 12/30 11:31
ProTrader: 如果是市場主力想操控股價 那引入過去價格當state OK 12/30 11:33
ProTrader: 最重要的你既然有模型有策略 直接回測看績效不就好了 12/30 11:38
ProTrader: 你要是有回測結果 可以討論的題材會比較多 12/30 11:39