9、机器学习中的文本分类、推荐系统与支持向量机

机器学习中的文本分类、推荐系统与支持向量机

1. 文本分类中的拉普拉斯平滑与垃圾邮件过滤

在文本分类中,我们常常会遇到一些问题。例如,在判断 “Scores must be reviewed by tomorrow” 是否为垃圾邮件时,若简单地计算概率,由于 “review” 未出现在垃圾邮件样本中,会导致计算结果为 0,算法无法为该邮件分配垃圾邮件概率。

解决这个问题的常见方法是应用拉普拉斯平滑(也称为加法平滑),具体做法是给每个分子加 1,给每个分母加上数据集中唯一单词的数量。以下是应用拉普拉斯平滑后的单词频率表:
| Word | P(word|S) | P(word|N) |
| — | — | — |
| raise | (1 + 1) / (9 + 10) = 0.105 | (0 + 1) / (8 + 10) = 0.056 |
| credit | (1 + 1) / (9 + 10) = 0.105 | (0 + 1) / (8 + 10) = 0.056 |
| score | (2 + 1) / (9 + 10) = 0.158 | (1 + 1) / (8 + 10) = 0.111 |
| minute | (1 + 1) / (9 + 10) = 0.105 | (1 + 1) / (8 + 10) = 0.111 |
| yesterday | (1 + 1) / (9 + 10) = 0.105 | (2 + 1) / (8 + 10) = 0.167 |
| meeting | (0 + 1) / (9 + 10) = 0.053 | (2 + 1) / (8 + 10) = 0.16

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值