1. 理论基础与核心概念 1.1 推理强化学习(Reasoning-Enhanced RL)定义 核心思想:在传统强化学习的马尔可夫决策过程(MDP)基础上,引入符号推理、因果推断和知识引导机制,解决复杂环境中的长程依赖和稀疏奖励问题。 数学建模: 扩展MDP为R-MDP: ⟨S,A,P,R,K,Ω⟩\LARGE \langle S, A, P, R, K, \Omega \rangle⟨S