机器学习的数学基础(2)——分类问题

类样本分布

以文本分类为例,第 n n n个文件 x n \mathbf{x_n} xn

在理解似然时,我们必须记住,似然模型是由已知的有标签数据训练得来的。得到
p ( x n ∣ t n = c , X , t ) p(\mathbf{x_n}|t_n=c,\mathbf{X},\mathbf{t}) p(xntn=c,X,t)
表示对于一个 c c c类的数据,它在空间上的概率分布,一般的在远离大部分数据时变小,在靠近时变大。
在文本分类的问题上,要想知道似然函数必须知道多项分布
P ( X = x ) = P ( x ) = N ! ∏ j x j ! ∏ j q j x j P(X=\mathbf{x})=P(\mathbf{x})=\frac{N !}{\prod_{j} x_{j} !} \prod_{j} q_{j}^{x_{j}} P(X=x)=P(x)=jxj!N!jqjxj
中向量 q \mathbf{q} q的值,从而计算当某一个类已知的数据出现时,它的属性是 x n \mathbf{x_n} xn的概率是多少。那么如何计算呢?

  1. 使用最大似然估计,思路是:既然我们已经知道了所有类别为 c c c的样本属性,要估计参数,显然要将所有的样本的似然值相乘得到似然函数,在通过求导使之最大化,得到取得最大时参数的值。过程为:
    P ( X n = x n ) = P ( x n ) = S n ! ∏ m = 1 M x n m ! ∏ m = 1 M q m x n m P(X_n=\mathbf{x}_n)=P(\mathbf{x}_n)=\frac{S_n !}{\prod_{m=1}^{M} x_{nm} !} \prod_{m=1}^{M} q_{m}^{x_{nm}} P(Xn=xn)=P(xn)=m=1Mxnm!Sn!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值