13、未知量化网络控制系统的最优控制策略解析

未知量化网络控制系统的最优控制策略解析

1. 控制增益与价值函数估计

在未知量化网络控制系统中,控制增益与矩阵 (G_k) 密切相关。与特定方程相比,控制增益可表示为:
[
E_{k,\tau,\gamma}K = [E_{k,\tau,\gamma}G_{uu}]^{-1}E_{k,\tau,\gamma}G_{ux}
]
从上述分析可知,确定性等价时变动作相关随机价值函数 (V_{AD}(x_k, u_k, N - k)) 的估计包含 (G_k) 矩阵的信息,且该矩阵可在线求解。因此,控制输入可由相关方程得出,而非使用其他给定的 (A) 和 (B)。

2. 无模型在线调整动作相关价值函数

为实现有限时域随机最优控制设计,无需采用基于迭代的方案。在此之前,需引入相关假设和引理。
- 假设 4.4 :动作相关价值函数 (V_{AD}(x_k, u_k, N - k)) 缓慢变化,可表示为未知参数的线性形式(LIP)。基于此假设和自适应控制理论,(V_{AD}(x_k, u_k, N - k)) 可写成向量形式:
[
V_{AD}(x_k, u_k, N - k) = E_{k,\tau,\gamma}[z_k^T G_k z_k] = E_{k,\tau,\gamma}[g_k^T z_k]
]
其中,(z_k = [x_k^T, u_k^T]^T \in \mathbb{R}^{n + m}) 是回归函数,(z_k) 是克罗内克积二次多项式基向量,(g_k = vec(G_k))。
- 引理 4.1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值