机器学习中的文本分类、推荐系统与支持向量机
1. 文本分类中的拉普拉斯平滑与垃圾邮件过滤
在文本分类中,我们常常会遇到一些问题。例如,在判断 “Scores must be reviewed by tomorrow” 是否为垃圾邮件时,若简单地计算概率,由于 “review” 未出现在垃圾邮件样本中,会导致计算结果为 0,算法无法为该邮件分配垃圾邮件概率。
解决这个问题的常见方法是应用拉普拉斯平滑(也称为加法平滑),具体做法是给每个分子加 1,给每个分母加上数据集中唯一单词的数量。以下是应用拉普拉斯平滑后的单词频率表:
| Word | P(word|S) | P(word|N) |
| — | — | — |
| raise | (1 + 1) / (9 + 10) = 0.105 | (0 + 1) / (8 + 10) = 0.056 |
| credit | (1 + 1) / (9 + 10) = 0.105 | (0 + 1) / (8 + 10) = 0.056 |
| score | (2 + 1) / (9 + 10) = 0.158 | (1 + 1) / (8 + 10) = 0.111 |
| minute | (1 + 1) / (9 + 10) = 0.105 | (1 + 1) / (8 + 10) = 0.111 |
| yesterday | (1 + 1) / (9 + 10) = 0.105 | (2 + 1) / (8 + 10) = 0.167 |
| meeting | (0 + 1) / (9 + 10) = 0.053 | (2 + 1) / (8 + 10) = 0.16
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



