→ email81227: 我覺得你是不是搞混了強化學習跟遷移學習? 10/07 18:26
→ chang1248w: 不要繞遠路吧,講一下你的資料和模型怎麼選 10/07 18:38
→ wheado: 老闆希望的...我也覺得是繞遠路,但我無法說服別人... 10/07 22:17
推 kriswu8021: 怎麼會覺得supervised的做不了RL就做得出來xd 10/08 05:03
推 yiche: 覺得只是換一個解題思維,當我的最佳化對象不可微分時,設 10/08 10:24
→ yiche: 計為RL的reward 希望reward愈大愈好,用RL架構env-agent互 10/08 10:24
→ yiche: 動來解 10/08 10:24
→ yiche: 只是原po的情況,不曉得該怎麼設計為RL。 10/08 10:25
→ yuwenche: 這須要自己寫Env.,真實世界的RL問題通常要這麼作.不過, 10/08 11:45
→ yuwenche: 這應該比監督式學習難多了. 10/08 11:47
→ DarkIllusion: 不知道你想解什麼問題 但RL通常是用來解MDP問題的 10/08 15:20
→ DarkIllusion: 看到了 手寫辨識 這跟MDP問題看起來沒什麼關係 10/08 15:39
→ DarkIllusion: 也許你可以聊聊遇到了什麼困難? 10/08 15:42
→ kriswu8021: 不可微明明就還有很多更直接的optimization 啊… 10/09 01:08
推 ILYY: 感覺走錯路了 10/12 10:04
推 Bujo: 典型的老闆跟工程師都不知道自己的問題是什麼 10/22 17:54
→ RumiManiac: 要搞 RL 先把 Sutton 教科書讀過吧 10/28 11:52
→ RumiManiac: 你遇到監督式學習解決不了的,有分析清楚為何不行嗎 10/28 11:54
→ RumiManiac: 如果沒有,那改用 RL 做了也解決不了怎麼辦 10/28 11:54
→ yoche2000: 重點是 problem formulation 吧 11/04 15:20