机器学习的数学基础（2）——分类问题

Rouge-Eradiction

于 2021-01-06 12:42:07 发布

阅读量395

点赞数

分类专栏：机器学习的第一课文章标签：机器学习线性代数概率论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/rouge_eradiction/article/details/112253533

版权

类样本分布

以文本分类为例，第 $n$ 个文件 $\mathbf{x_n}$

在理解似然时，我们必须记住，似然模型是由已知的有标签数据训练得来的。得到
$p(\mathbf{x_n}|t_n=c,\mathbf{X},\mathbf{t})$
表示对于一个 $c$ 类的数据，它在空间上的概率分布，一般的在远离大部分数据时变小，在靠近时变大。
在文本分类的问题上，要想知道似然函数必须知道多项分布
$P(X=\mathbf{x})=P(\mathbf{x})=\frac{N !}{\prod_{j} x_{j} !} \prod_{j} q_{j}^{x_{j}}$
中向量 $\mathbf{q}$ 的值，从而计算当某一个类已知的数据出现时，它的属性是 $\mathbf{x_n}$ 的概率是多少。那么如何计算呢？

使用最大似然估计，思路是：既然我们已经知道了所有类别为 $c$ 的样本属性，要估计参数，显然要将所有的样本的似然值相乘得到似然函数，在通过求导使之最大化，得到取得最大时参数的值。过程为：
$P(X_n=\mathbf{x}_n)=P(\mathbf{x}_n)=\frac{S_n !}{\prod_{m=1}^{M} x_{nm} !} \prod_{m=1}^{M} q_{m}^{x_{nm}}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。