未知量化网络控制系统的最优控制策略解析
1. 控制增益与价值函数估计
在未知量化网络控制系统中,控制增益与矩阵 (G_k) 密切相关。与特定方程相比,控制增益可表示为:
[
E_{k,\tau,\gamma}K = [E_{k,\tau,\gamma}G_{uu}]^{-1}E_{k,\tau,\gamma}G_{ux}
]
从上述分析可知,确定性等价时变动作相关随机价值函数 (V_{AD}(x_k, u_k, N - k)) 的估计包含 (G_k) 矩阵的信息,且该矩阵可在线求解。因此,控制输入可由相关方程得出,而非使用其他给定的 (A) 和 (B)。
2. 无模型在线调整动作相关价值函数
为实现有限时域随机最优控制设计,无需采用基于迭代的方案。在此之前,需引入相关假设和引理。
- 假设 4.4 :动作相关价值函数 (V_{AD}(x_k, u_k, N - k)) 缓慢变化,可表示为未知参数的线性形式(LIP)。基于此假设和自适应控制理论,(V_{AD}(x_k, u_k, N - k)) 可写成向量形式:
[
V_{AD}(x_k, u_k, N - k) = E_{k,\tau,\gamma}[z_k^T G_k z_k] = E_{k,\tau,\gamma}[g_k^T z_k]
]
其中,(z_k = [x_k^T, u_k^T]^T \in \mathbb{R}^{n + m}) 是回归函数,(z_k) 是克罗内克积二次多项式基向量,(g_k = vec(G_k))。
- 引理 4.1
超级会员免费看
订阅专栏 解锁全文
1000

被折叠的 条评论
为什么被折叠?



