机器学习之贝叶斯算法(贝叶斯公式、词袋模型、TF-IDF算法)总结

本文深入探讨了贝叶斯公式的理论基础及其在多种模型中的应用,包括多项式、伯努利、混合及高斯模型。同时,介绍了词袋模型(BoW)在自然语言处理和信息检索领域的运用,并详细解析了TF-IDF算法的工作原理,帮助读者理解如何通过统计方法确定文档中关键词的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

贝叶斯公式

已知:P(X|H),求P(H|X)

贝叶斯例子:

以上是只有一种特征的情况,如果有多个特征的情况下会使得统计量巨大,n个特征,需要计算2n-1次

朴素贝叶斯(假设:特征X1,X2,X3……之间都是相互独立的)

贝叶斯模型

       <1>多项式模型

       <2>伯努利模型

       <3>混合模型

       <4>高斯模型

词袋模型(Bag of Words)

BoW忽略文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词来表达一段文字或文档。

例子:

应用领域:自然语言处理(Natural Language Processing)和信息检索(Infomation Retrieval)

TF-IDF算法

某个词TF-IDF值就越大,说明该词对文章的重要性越高,越有可能成为关键词。

TF(Term Frequency)词频

IDF(Inverse Document Frequency)逆文档频率

IDF大小与一个词的常见程度成反比

一个例子理解TF-IDF是如何计算的?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值