9、机器学习中的文本分类、推荐系统与支持向量机-优快云博客

本文链接：https://blog.youkuaiyun.com/zero1/article/details/151161614

机器学习中的文本分类、推荐系统与支持向量机

1. 文本分类中的拉普拉斯平滑与垃圾邮件过滤

在文本分类中，我们常常会遇到一些问题。例如，在判断 “Scores must be reviewed by tomorrow” 是否为垃圾邮件时，若简单地计算概率，由于 “review” 未出现在垃圾邮件样本中，会导致计算结果为 0，算法无法为该邮件分配垃圾邮件概率。

解决这个问题的常见方法是应用拉普拉斯平滑（也称为加法平滑），具体做法是给每个分子加 1，给每个分母加上数据集中唯一单词的数量。以下是应用拉普拉斯平滑后的单词频率表：
| Word | P(word|S) | P(word|N) |
| — | — | — |
| raise | (1 + 1) / (9 + 10) = 0.105 | (0 + 1) / (8 + 10) = 0.056 |
| credit | (1 + 1) / (9 + 10) = 0.105 | (0 + 1) / (8 + 10) = 0.056 |
| score | (2 + 1) / (9 + 10) = 0.158 | (1 + 1) / (8 + 10) = 0.111 |
| minute | (1 + 1) / (9 + 10) = 0.105 | (1 + 1) / (8 + 10) = 0.111 |
| yesterday | (1 + 1) / (9 + 10) = 0.105 | (2 + 1) / (8 + 10) = 0.167 |
| meeting | (0 + 1) / (9 + 10) = 0.053 | (2 + 1) / (8 + 10) = 0.16