1.最大熵模型:对于未知变量,倾向于最大熵(均匀分布),因为这样最保险
2.学习时候进行最大似然估计
约束条件:也就是求出的条件分布尽量符合数据情况
3.求解的时候使用拉格朗日方法,
先求w才行,但是这个对于P是凸函数,就对P求导,
求导得到这样的式子:
1.最大熵模型:对于未知变量,倾向于最大熵(均匀分布),因为这样最保险
2.学习时候进行最大似然估计
约束条件:也就是求出的条件分布尽量符合数据情况
3.求解的时候使用拉格朗日方法,
先求w才行,但是这个对于P是凸函数,就对P求导,
求导得到这样的式子: