机器学习算法整理（三）

最新推荐文章于 2025-05-31 01:39:33 发布

原创最新推荐文章于 2025-05-31 01:39:33 发布 · 183 阅读

CC 4.0 BY-SA版权

5 篇文章

订阅专栏

朴素贝叶斯

利用朴素贝叶斯解决邮件分类（文本分析）问题（监督学习）

模型的输入是 $P (邮件内容 ∣ 正常)$ ， $P (邮件内容 ∣ 垃圾)$ （似然概率）；先验概率 $P (垃圾)$ ， $P (正常)$

任务内容是计算 $P (垃圾 o r 正常 ∣ 邮件内容)$ （后验概率）

联合概率分布 $P(X_1,X_2,\cdots,X_n|Y)=\prod_{i=1}^{N}P(X_i|Y)$ （其中 $X_i$ 是相互独立的）

贝叶斯定理：
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

文本的数据需要转换成向量形式（vector）

即计算 $P (邮件内容 ∣ 正常)$ ， $P (邮件内容 ∣ 垃圾)$ （似然概率）的两种方法

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

词频计算
图源来自GreedyAIAcademy
Tfidf
$t f i d f (w) = t f (d, w) * i d f (w)$ $t f (d, w)$ 是 $w$ 在 $d$ 字典中的词频；
$idf(w)=log\frac{N}{N(w)}$ ， $N$ 是文档总数， $N (w)$ 是 $w$ 在几个文档中出现
同样要进行平滑处理。