23、基于强化学习的药物剂量控制

基于强化学习的药物剂量控制

1 相关概念与参数

在强化学习中,$\mathbb{E}[\cdot]$ 表示期望,$R_k$ 表示总折扣回报,$\theta \in [0, 1]$ 是折扣率参数,代表智能体关注的时间范围。当 $\theta = 0$ 时,$J(R_k) = r_k$,即智能体在学习时仅考虑当前奖励;当 $\theta$ 接近 1 时,未来成本的权重增加。

2 学习最优策略

基于强化学习的控制依赖于在与系统交互过程中学习最优控制策略。与系统交互获得的信息用于逐步提升智能体的决策策略。智能体从初始任意策略开始,与系统交互以学习最优策略。

对于线性系统,可通过求解相关的代数 Riccati 方程来推导与特定目标函数和系统约束相关的最优控制律。然而,推导非线性系统的最优控制律较为繁琐,需要求解复杂的 Hamilton - Jacobi - Bellman 偏微分方程。

Watkin 的 Q - 学习是一种基于强化学习的方法,它利用每次状态转移来更新构成控制策略的 Q 表的每个条目。策略存储在表中,以便根据系统状态快速检索适当的响应。Q 表中每个状态 $s_k$ 和动作 $a_k$ 对的条目 $Q(s_k, a_k)$ 表示状态 $s_k$ 与动作 $a_k$ 关联时的价值。控制器或强化学习智能体评估测量变量,并根据 $Q(s_k, a_k) : S \times A \to \mathbb{R}$ 给出的学习到的最优策略执行控制动作。

对于每个 $k$ 和状态 $s_k$,控制器或智能体选择控制动作 $a_k$ 如下:
$a_k = \arg\max_{a \in A} Q(s_k, a)$

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值