5分钟从数学上解释朴素贝叶斯

最新推荐文章于 2022-10-15 21:41:00 发布

转载最新推荐文章于 2022-10-15 21:41:00 发布 · 320 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://www.fgba.net/forum-56.html

文章标签：

#机器学习 #分类 #算法

朴素贝叶斯是一种基于贝叶斯定理的分类算法，因其假设特征之间相互独立而得名。该算法简单易懂，常用于文本分类、多类预测和实时预测等场景。在实际应用中，朴素贝叶斯有三种类型：多项式、伯努利和高斯。虽然它有较强的假设，但在许多情况下仍表现出良好的性能。然而，它也存在零频问题和概率估计不准确等缺点。

　　朴素贝叶斯的完整解释和示例

　　

5分钟从数学上解释朴素贝叶斯

　　> Photo by Courtney Cook on Unsplash

　　天真贝叶斯。看起来很混乱的算法实际上是曾经被理解的最简单的算法之一。之所以这么容易理解和实施，部分原因在于它固有的假设。但是，这并不是说尽管有很强的假设，但它的算法并不理想-实际上，朴素贝叶斯（Naive Bayes）已在数据科学界广泛使用，并具有许多实际应用。

　　在本文中，我们将研究Naive Bayes是什么，它如何通过示例使其易于理解，以及Naive Bayes的不同类型，优缺点以及其在现实生活中的应用。

　　初步知识

　　为了了解朴素贝叶斯并从本文中获得最大的价值，希望您对以下概念有基本的了解：

　　· 条件概率：在发生另一个事件的情况下，事件A发生的概率的度量。例如，"由于多云，下雨的概率是多少？" 是条件概率的一个例子。

　　· 联合概率：一种度量，它计算两个或多个事件同时发生的可能性。

　　· 比例性：是指两个数量乘以一个常数，或更简单地说，它们的比率是否产生一个常数，它们之间的关系。

　　· 贝叶斯定理（Bayes Theorem）：根据维基百科，贝叶斯定理基于对事件可能与事件相关的先验知识来描述事件的概率（后验）。

　　什么是朴素贝叶斯？

　　朴素贝叶斯是一种机器学习算法，但更具体地说，它是一种分类技术。这意味着当输出变量为离散变量时，将使用朴素贝叶斯。该算法的基本原理由贝叶斯定理决定，您将在下一部分中看到。

　　天真贝叶斯如何工作

　　首先，我将遍历朴素贝叶斯背后的理论，然后通过示例巩固这些概念，以使其更易于理解。

　　朴素贝叶斯分类器受贝叶斯定理启发，贝叶斯定理陈述以下方程式：

　　

5分钟从数学上解释朴素贝叶斯

　　可以使用X（输入变量）和y（输出变量）来重写此方程，以使其更易于理解。用简单的英语来说，该方程式可求解给定输入特征X的y概率。

　　

5分钟从数学上解释朴素贝叶斯

　　由于天真的假设（因此得名），变量在给定类的情况下是独立的，因此可以如下重写P（X | y）：

　　

5分钟从数学上解释朴素贝叶斯

　　另外，由于我们要求解y，所以P（X）是一个常数，这意味着我们可以从方程中将其删除并引入比例性。这使我们得出以下等式：

　　

5分钟从数学上解释朴素贝叶斯

　　现在我们已经得出了这个方程，朴素贝叶斯的QQ账号卖号平台目标是选择概率最大的y类。 Argmax是一个简单的操作，它从目标函数中查找给出最大值的参数。在这种情况下，我们想要找到最大的y值。

　　

5分钟从数学上解释朴素贝叶斯

　　现在，让我们来看一个示例，以便您可以更充分地了解此算法。

　　朴素贝叶斯的例子

　　假设您跟踪了14天的天气状况，并根据天气状况，决定是否打高尔夫球。

　　

5分钟从数学上解释朴素贝叶斯

　　首先，我们需要将其转换为频率表，以便获得P（X | y）和P（X）的值。回想一下我们正在求解P（y | X）：

　　

5分钟从数学上解释朴素贝叶斯

　　

5分钟从数学上解释朴素贝叶斯

　　其次，我们想将频率转换为比率或条件概率：

　　

5分钟从数学上解释朴素贝叶斯

　　最后，给定X，我们可以使用比例方程式来预测y。

　　假设X={外观：晴天，温度：中度，湿度：正常，大风：假}。

　　首先，我们将计算在给定X，P（y | X）的情况下打高尔夫球的概率，然后计算在给定X，P（no | X）的情况下您打高尔夫球的概率。

　　使用上面的图表，我们可以获得以下信息：

　　

5分钟从数学上解释朴素贝叶斯

　　谢谢你们的评论。我已在上面进行了更正。

　　现在我们可以简单地将此信息输入以下公式：

　　

5分钟从数学上解释朴素贝叶斯

　　同样，您将为P（no | X）完成相同的步骤顺序。

　　

5分钟从数学上解释朴素贝叶斯

　　由于P（yes | X）> P（no | X），因此您可以预测此人会打高尔夫球，因为前景晴朗，温度适中，湿度正常且没有大风。

　　TLDR

　　综合我们刚刚所做的…

　　· 首先，我们创建一个频率表，然后创建一个比率表，以便获得P（X）和P（y | X）的值。

　　· 然后，对于给定的一组输入特征X，我们为每个类y计算了P（y | X）的比例。在我们的示例中，我们有两个类，是和否。

　　· 最后，我们采用所有类别中P（y | X）的最大值来预测最有可能出现哪种结局。

　　朴素贝叶斯的类型

　　实际使用的朴素贝叶斯有三种主要类型：

　　多项式

　　多项式朴素贝叶斯假设每个P（xn | y）都遵循多项式分布。与上面的示例类似，它主要用于文档分类问题并查看单词的出现频率。

　　贝努利

　　伯努利朴素贝叶斯与多项式朴素贝叶斯相似，不同之处在于预测变量是布尔值（真/假），就像上面示例中的" Windy"变量一样。

　　高斯型

　　高斯朴素贝叶斯假设连续值是从高斯分布中采样的，并假设以下内容：

　　

5分钟从数学上解释朴素贝叶斯

　　朴素贝叶斯的优缺点优点

　　· 如上所示，一旦您了解了概念，它就会非常直观

　　· 在多类别预测中易于实施并表现良好

　　· 它适用于分类输入变量

　　缺点

　　· 当测试集中的某个类别不在训练集中时，您可能会遇到零频问题（尽管有一些解决方法）

　　· 概率估计不是此算法中最可信赖的

　　· 如上所述，朴素贝叶斯有很强的假设。

　　朴素贝叶斯应用

　　以下是朴素贝叶斯用于的一些流行应用程序：

　　· 实时预测：由于朴素贝叶斯（Naive Bayes）快速且基于贝叶斯统计信息，因此可以很好地进行实时预测。实际上，许多流行的实时模型或在线模型都是基于贝叶斯统计数据的。

　　· 多类预测：如前所述，当输出变量有两个以上类时，朴素贝叶斯可以很好地工作。

　　· 文本分类：文本分类还包括垃圾邮件过滤和情感分析之类的子应用程序。由于朴素贝叶斯最适合离散变量，因此在这些应用程序中往往会很好地工作。

　　· 推荐系统：朴素贝叶斯通常与其他算法（例如协作过滤）一起使用，以构建推荐系统，例如Netflix为您推荐的部分，亚马逊的推荐产品或Spotify的推荐歌曲。

　　谢谢阅读！特伦斯·辛

　　ShinTwin的创始人| 让我们在LinkedIn上建立联系| 项目组合在这里。

　　(本文翻译自Terence S的文章《A Mathematical Explanation of Naive Bayes in 5 Minutes》

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。