优势比和最大似然

紫色蜘蛛爬啊爬

已于 2024-01-26 00:42:12 修改

阅读量2.2k

点赞数 24

CC 4.0 BY-SA版权

分类专栏：数据分析文章标签：概率论算法机器学习数据分析

于 2024-01-25 10:03:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zzphapy/article/details/135836876

数据分析专栏收录该内容

4 篇文章

订阅专栏

本文介绍了优势比作为一种描述分类变量间关系的方法，通过实例说明其计算方式。同时，讲解了最大似然估计的概念及其在估计未知参数时的应用，如分析熬夜与肥胖的相关性，并通过实际例子演示了如何使用最大似然估计求解问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 优势比 odds ratio

1.1 什么是优势比

优势比(odds ratio；OR)是一种描述概率的方式，用于反映分类变量之间的相关性。

优势：设定p为事件发生的概率，则发生的优势为，odds= p/1-p。
优势比：p1为事件1发生的概率，p2为事件2发生的可能/概率，

优势比为odds ratio= (p1/(1-p1)) /(p2/(1-p2))

可以理解为事件1发生的概率相较于事件2发生概率的比值。

1.2举例和公式

问题：熬夜和肥胖是否相关？

数据：身材胖/瘦人群，分别统计熬夜人群和不熬夜人群和结构

是否熬夜/身材	胖	瘦
熬夜	25	19
不熬夜	15	21

胖子人群熬夜的优势= （25/(25+15) ） / （1-25/(25+15) ）=25/15= 1.67
瘦子人群熬夜的优势= （19/(19+21) ） / （1-19/(19+21) ）=19/21= 0.9
则胖子熬夜的概率/ 瘦子熬夜的概率 = 胖瘦和熬夜的优势比 = 1.67/0.9 =1.86>1

结论：

OR = 1，胖瘦与熬夜没有相关性；
OR > 1，熬夜会增加肥胖概率；
OR < 1，熬夜会降低肥胖概率；

2. 最大似然估计

2.1 似然和概率

我们常常用概率(Probability) 来描述一个事件发生的可能性。

而似然性(Likelihood) 正好反过来，意思是一个事件实际已经发生了，反推在什么参数条件下，这个事件发生的概率最大。

用数学公式来表达上述意思，就是:

已知参数 θ 前提下，预测某事件 x 发生的条件概率为 P(x|θ) ;
已知某个已发生的事件 x，未知参数 θ 的似然函数为 L(θ|x)；
上面两个值相等，即: P(x|θ)=L(θ|x)。需要说明的是两者在数值上相等，但是意义并不相同，一个是关于 θ 的函数，一个是关于 x 的函数，两者从不同的角度描述一件事情。

2.2 最大似然估计的概念

最大似然估计（Maximum Likelihood Estimate）的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

当我们已知事件x发生后，从θ1,θ2,⋯,θn中找出哪一个 θ 参数使的似然函数的值到达了最大值，说明在这个参数下最有可能发生x事件，即这个参数最合理。

2.3 举例和公式

假设一个袋子装有白球与红球，比例未知，现在抽取10次（每次抽完都放回，保证事件独立性），假设抽到了7次白球和3次红球，在此数据样本条件下，估计袋子中白球和红球的比例。大家会猜比例是7：3。

利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。就是采用最大似然估计法求解袋子中白球的比例。

我们已知：

样本空间D={x1,x2...,xn}为本次实验的样本空间；
白球出现的概率为θ；
红球出现的概率为1-θ。

概率函数P(x1,x2...,xn|θ)称为对于样本空间D的θ的似然函数。

如果 $\hat{\Theta }$ 是参数空间中能使似然函数L(θ)最大的θ值，则 $\hat{\Theta }$ 应该是“最可能”的参数值，那么 $\hat{\Theta }$ 就是θ的极大似然估计量，记作。

解本案例如下：

取一次的概率函数为(取到白球时x=1，红球时x=0)：
令模型M=f(x;θ)
本次事件的概率为：

(为什么多此一举用M转换一次？只是为了让我理解网上很多资料里面的公式推导，这里的M可以是线性概率密度函数，也可以是正态分布函数等等。)

本次事件发生的概率为:
令函数值最大，就是对函数求导，并且令导函数等于0.

求解得到结果 θ=0.7

2.4 最大似然估计求解过程

由上可知最大似然估计的一般求解过程：

1）写出似然函数；
2）对似然函数取对数，并整理；
3）求导数；
4）解似然方程。

参考文档：

优势比和Logistics：大厂数据分析高频面试-逻辑回归和优势比1

最大似然：极大似然估计详解，写的太好了！_极大似然估计函数-优快云博客

最大似然估计：详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解-优快云博客

优势比：如何理解Logistic回归输出的OR值 - 知乎

紫色蜘蛛爬啊爬

博客等级

码龄18年

21
原创

64
点赞

94
收藏

74
粉丝

关注

私信

热门文章

分类专栏

数据分析 4篇
ETL 1篇
Linux技术 1篇
BI 6篇
Python 3篇

上一篇：: 条件概率、全概率和贝叶斯公式

下一篇：: Logistics 逻辑回归概念

最新评论

Logistics 逻辑回归概念
优快云-Ada助手: 恭喜您写了第20篇博客！标题中的"Logistics 逻辑回归概念"看起来非常引人入胜。您对逻辑回归的概念进行了深入的探讨，这无疑为读者提供了宝贵的知识。我非常期待阅读您的博客，并从中学到更多关于逻辑回归的知识。在下一步的创作中，或许您可以考虑深入探讨逻辑回归的具体应用场景，或者分享一些实际案例以帮助读者更好地理解其在实践中的应用。此外，您可以探讨逻辑回归与其他机器学习算法的比较，以帮助读者更好地选择合适的算法。再次恭喜您的持续创作，期待您未来更多精彩的博客！
优势比和最大似然
优快云-Ada助手: 恭喜你在博客上发表了第19篇文章！看到你不断地分享关于“优势比和最大似然”的内容，真的让人感到佩服。不过，我想提一个建议，希望你能在下一篇文章中加入一些案例分析或者实际应用，这样读者更容易理解和接受你的观点。期待你的下一篇作品！加油！
条件概率、全概率和贝叶斯公式
优快云-Ada助手: 恭喜你写了第18篇博客！标题“条件概率、全概率和贝叶斯公式”听起来非常有深度和专业性。你的博客内容一定能帮助读者更好地理解这些概念。在下一步的创作中，我建议你可以考虑进一步拓展这些概念的应用和实例，以便读者更好地将其运用到实际问题中。期待你的下一篇博客！
IBM Information Server（DataStage8.1）安装
lidazui0201: 哎，装吐了

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。