类样本分布
以文本分类为例,第 n n n个文件 x n \mathbf{x_n} xn
在理解似然时,我们必须记住,似然模型是由已知的有标签数据训练得来的。得到
p ( x n ∣ t n = c , X , t ) p(\mathbf{x_n}|t_n=c,\mathbf{X},\mathbf{t}) p(xn∣tn=c,X,t)
表示对于一个 c c c类的数据,它在空间上的概率分布,一般的在远离大部分数据时变小,在靠近时变大。
在文本分类的问题上,要想知道似然函数必须知道多项分布
P ( X = x ) = P ( x ) = N ! ∏ j x j ! ∏ j q j x j P(X=\mathbf{x})=P(\mathbf{x})=\frac{N !}{\prod_{j} x_{j} !} \prod_{j} q_{j}^{x_{j}} P(X=x)=P(x)=∏jxj!N!j∏qjxj
中向量 q \mathbf{q} q的值,从而计算当某一个类已知的数据出现时,它的属性是 x n \mathbf{x_n} xn的概率是多少。那么如何计算呢?
- 使用最大似然估计,思路是:既然我们已经知道了所有类别为 c c c的样本属性,要估计参数,显然要将所有的样本的似然值相乘得到似然函数,在通过求导使之最大化,得到取得最大时参数的值。过程为:
P ( X n = x n ) = P ( x n ) = S n ! ∏ m = 1 M x n m ! ∏ m = 1 M q m x n m P(X_n=\mathbf{x}_n)=P(\mathbf{x}_n)=\frac{S_n !}{\prod_{m=1}^{M} x_{nm} !} \prod_{m=1}^{M} q_{m}^{x_{nm}} P(Xn=xn)=P(xn)=∏m=1Mxnm!Sn!