基于强化学习的药物剂量控制
1 相关概念与参数
在强化学习中,$\mathbb{E}[\cdot]$ 表示期望,$R_k$ 表示总折扣回报,$\theta \in [0, 1]$ 是折扣率参数,代表智能体关注的时间范围。当 $\theta = 0$ 时,$J(R_k) = r_k$,即智能体在学习时仅考虑当前奖励;当 $\theta$ 接近 1 时,未来成本的权重增加。
2 学习最优策略
基于强化学习的控制依赖于在与系统交互过程中学习最优控制策略。与系统交互获得的信息用于逐步提升智能体的决策策略。智能体从初始任意策略开始,与系统交互以学习最优策略。
对于线性系统,可通过求解相关的代数 Riccati 方程来推导与特定目标函数和系统约束相关的最优控制律。然而,推导非线性系统的最优控制律较为繁琐,需要求解复杂的 Hamilton - Jacobi - Bellman 偏微分方程。
Watkin 的 Q - 学习是一种基于强化学习的方法,它利用每次状态转移来更新构成控制策略的 Q 表的每个条目。策略存储在表中,以便根据系统状态快速检索适当的响应。Q 表中每个状态 $s_k$ 和动作 $a_k$ 对的条目 $Q(s_k, a_k)$ 表示状态 $s_k$ 与动作 $a_k$ 关联时的价值。控制器或强化学习智能体评估测量变量,并根据 $Q(s_k, a_k) : S \times A \to \mathbb{R}$ 给出的学习到的最优策略执行控制动作。
对于每个 $k$ 和状态 $s_k$,控制器或智能体选择控制动作 $a_k$ 如下:
$a_k = \arg\max_{a \in A} Q(s_k, a)$
超级会员免费看
订阅专栏 解锁全文
3308

被折叠的 条评论
为什么被折叠?



