逻辑回归与最大熵模型:最大熵模型详解
1. 最大熵模型的定义
最大熵原理是机器学习中的一个通用原则,将其应用于分类问题可得到最大熵模型。假设分类模型是一个条件概率分布 (P(Y|X)),其中 (X \in \mathcal{X} \subseteq \mathbb{R}^n) 为输入, (Y \in \mathcal{Y}) 为输出,(\mathcal{X}) 和 (\mathcal{Y}) 分别是输入和输出的集合。该模型通过条件概率 (P(Y|X)) 来表示对于给定输入 (X) 的输出 (Y)。
给定训练数据集 (T = {(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)}),学习的目标是利用最大熵原理选择最佳的分类模型。
首先考虑模型应满足的条件。根据给定的训练数据集,可以确定联合分布 (P(X, Y)) 的经验分布 (\tilde{P}(X, Y)) 和边缘分布 (P(X)) 的经验分布 (\tilde{P}(X)),具体定义如下:
[
\begin{cases}
\tilde{P}(X = x, Y = y) = \frac{\nu(X = x, Y = y)}{N}\
\tilde{P}(X = x) = \frac{\nu(X = x)}{N}
\end{cases}
]
其中,(\nu(X = x, Y = y)) 表示样本 ((x, y)) 在训练数据中的出现频率,(\nu(X = x)) 表示输入 (x) 在训练数据中的出现频率,(N) 表示训练样本的容量。
特征函数 (f(x, y)) 用于描述输入 (x) 和输出 (y) 之间的某种事
超级会员免费看
订阅专栏 解锁全文
11

被折叠的 条评论
为什么被折叠?



