强化学习分两种:一种是片段式强化学习episodic reinforcement learning;一种是连续式强化学习(continuous reinforcement learning)
- episodic reinforcement learning:在强化学习中,智能体通过与环境交互,依据奖励信号学习最优行为策略。片段式强化学习将这种交互过程划分为一个个独立的 “片段(episode)”。每个片段都有明确的起始和结束状态,比如玩一局游戏,从游戏开始到结束就是一个片段。在每个片段内,智能体持续采取行动,环境相应给出反馈和奖励,片段结束后,智能体基于该片段的经验来更新策略,进而提升后续片段中的表现 。
- 连续式强化学习(continuous reinforcement learning)任务无明确终止点,智能体持续与环境交互。像恒温器调节室内温度,需持续监测和调整,无自然结束标志。