线性二次型规划LQR中二次型期望等于协方差矩阵与Φ乘积的迹

线性二次型规划LQR中二次型期望等于迹

在吴恩达LQG问题的笔记中,有公式为:
E[wtTΦt+1wt]=Tr(ΣtΦt+1)withwt∼N(0,Σt) \mathbb{E}[w_t^T\Phi_{t+1}w_t]=Tr(\Sigma_t\Phi_{t+1}) \quad with \quad w_t\sim\mathcal{N}(0,\Sigma_t) E[wtTΦt+1wt]=Tr(ΣtΦt+1)withwtN(0,Σt)
证明如下:

  • 引入等式:Tr(xxTA)=Tr(xTAx)=xTAxTr(xx^TA)=Tr(x^TAx)=x^TAxTr(xxTA)=Tr(xTAx)=xTAx
  • 由上述等式
    (1)E[wtTΦt+1wt]=E[Tr(wtwtTΦt+1)]=Tr(E[wtwtTΦt+1])=Tr(E[wtwtT]Φt+1) \begin{aligned} \mathbb{E}[w_t^T\Phi_{t+1}w_t]&=\mathbb{E}[Tr(w_tw_t^T\Phi_{t+1})]\\ &=Tr(\mathbb{E}[w_tw_t^T\Phi_{t+1}])\\ &=Tr(\mathbb{E}[w_tw_t^T]\Phi_{t+1})\tag{1} \end{aligned} E[wtTΦt+1wt]=E[Tr(wtwtTΦt+1)]=Tr(E[wtwtTΦt+1])=Tr(E[wtwtT]Φt+1)(1)
    其中wt=[wt1,wt2,⋯ ,wtn]Tw_t=[w_{t_1},w_{t_2},\cdots,w_{t_n}]^Twt=[wt1,wt2,,wtn]T,且E[wt1]=0\mathbb{E}[w_{t_1}]=0E[wt1]=0
    (2)wtwtT=[wt1wt1wt1wt2⋯wt1wtnwt2wt1wt2wt2⋯wt2wtn⋮⋮⋱⋮wtnwt1wtnwt2⋯wtnwtn] \begin{aligned} w_tw_t^T=\left[ \begin{array}{cccc} w_{t_1}w_{t_1} & w_{t_1}w_{t_2} & \cdots & w_{t_1}w_{t_n} \\ w_{t_2}w_{t_1} & w_{t_2}w_{t_2} & \cdots & w_{t_2}w_{t_n} \\ \vdots & \vdots & \ddots & \vdots \\ w_{t_n}w_{t_1} & w_{t_n}w_{t_2} & \cdots & w_{t_n}w_{t_n} \end{array} \right]\tag{2} \end{aligned} wtwtT=wt1wt1wt2wt1wtnwt1wt1wt2wt2wt2wtnwt2wt1wtnwt2wtnwtnwtn(2)
    所以有
    (3)E[wtwtT]=[E[wtiwtj]]n×n=[E[wtiwtj]−E[wti]E[wtj]]n×n=[E[(wti−E[wti])(wtj−E[wtj])]]n×n=[cov(wti, wtj)]n×n=Σt \begin{aligned} \mathbb{E}[w_tw_t^T]&=[\mathbb{E}[w_{t_i}w_{t_j}]]_{n\times n}\\ &=[\mathbb{E}[w_{t_i}w_{t_j}]-\mathbb{E}[w_{t_i}]\mathbb{E}[w_{t_j}]]_{n\times n}\\ &=[\mathbb{E}[(w_{t_i}-\mathbb{E}[w_{t_i}])(w_{t_j}-\mathbb{E}[w_{t_j}])]]_{n\times n}\\ &=[cov(w_{t_i},\ w_{t_j})]_{n\times n}\\ &=\Sigma_t\tag{3} \end{aligned} E[wtwtT]=[E[wtiwtj]]n×n=[E[wtiwtj]E[wti]E[wtj]]n×n=[E[(wtiE[wti])(wtjE[wtj])]]n×n=[cov(wti, wtj)]n×n=Σt(3)
  • 将公式(3)带入公式(1)得到E[wtTΦt+1wt]=Tr(ΣtΦt+1)\quad\mathbb{E}[w_t^T\Phi_{t+1}w_t]=Tr(\Sigma_t\Phi_{t+1})E[wtTΦt+1wt]=Tr(ΣtΦt+1)
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值