23、基于强化学习的药物剂量控制

最新推荐文章于 2025-09-23 11:50:34 发布

算法笑匠

最新推荐文章于 2025-09-23 11:50:34 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏：生物医学控制的前沿探索文章标签：强化学习药物剂量控制 Q-学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/1a2s3d4f5g/article/details/152149606

生物医学控制的前沿探索专栏收录该内容

41 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于强化学习的药物剂量控制

1 相关概念与参数

在强化学习中，$\mathbb{E}[\cdot]$ 表示期望，$R_k$ 表示总折扣回报，$\theta \in [0, 1]$ 是折扣率参数，代表智能体关注的时间范围。当 $\theta = 0$ 时，$J(R_k) = r_k$，即智能体在学习时仅考虑当前奖励；当 $\theta$ 接近 1 时，未来成本的权重增加。

2 学习最优策略

基于强化学习的控制依赖于在与系统交互过程中学习最优控制策略。与系统交互获得的信息用于逐步提升智能体的决策策略。智能体从初始任意策略开始，与系统交互以学习最优策略。

对于线性系统，可通过求解相关的代数 Riccati 方程来推导与特定目标函数和系统约束相关的最优控制律。然而，推导非线性系统的最优控制律较为繁琐，需要求解复杂的 Hamilton - Jacobi - Bellman 偏微分方程。

Watkin 的 Q - 学习是一种基于强化学习的方法，它利用每次状态转移来更新构成控制策略的 Q 表的每个条目。策略存储在表中，以便根据系统状态快速检索适当的响应。Q 表中每个状态 $s_k$ 和动作 $a_k$ 对的条目 $Q(s_k, a_k)$ 表示状态 $s_k$ 与动作 $a_k$ 关联时的价值。控制器或强化学习智能体评估测量变量，并根据 $Q(s_k, a_k) : S \times A \to \mathbb{R}$ 给出的学习到的最优策略执行控制动作。

对于每个 $k$ 和状态 $s_k$，控制器或智能体选择控制动作 $a_k$ 如下：
$a_k = \arg\max_{a \in A} Q(s_k, a)$

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。