读RL论文:Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
通过极大似然公式:找到reward使得trajectory能产生尽可能多的reward (logZ起到归一化,限制reward不能无限大的作用)。
直观上看,L的梯度是在expert policy下梯度的期望与在当前reward下梯度期望的差。增加从expert trajectory中的reward,减小从当前policy中采样的trajectory中的当前reward成分。
最大熵IRL意义是在尽可能随机条件下最大化特证,对expert数据无法支持的其他动作不