1. 优势比 odds ratio
1.1 什么是优势比
优势比(odds ratio;OR)是一种描述概率的方式,用于反映分类变量之间的相关性。
- 优势:设定p为事件发生的概率,则发生的优势为,odds= p/1-p。
- 优势比:p1为事件1发生的概率,p2为事件2发生的可能/概率,
优势比为odds ratio= (p1/(1-p1)) /(p2/(1-p2))
可以理解为事件1发生的概率相较于事件2发生概率的比值。
1.2举例和公式
问题:熬夜和肥胖是否相关?
数据:身材胖/瘦人群,分别统计熬夜人群和不熬夜人群和结构
是否熬夜/身材 | 胖 | 瘦 |
熬夜 | 25 | 19 |
不熬夜 | 15 | 21 |
- 胖子人群熬夜的优势= (25/(25+15) ) / (1-25/(25+15) )=25/15= 1.67
- 瘦子人群熬夜的优势= (19/(19+21) ) / (1-19/(19+21) )=19/21= 0.9
- 则 胖子熬夜的概率/ 瘦子熬夜的概率 = 胖瘦和熬夜的优势比 = 1.67/0.9 =1.86>1
结论:
- OR = 1,胖瘦与熬夜没有相关性;
- OR > 1,熬夜会增加肥胖概率;
- OR < 1,熬夜会降低肥胖概率;
2. 最大似然估计
2.1 似然和概率
我们常常用概率(Probability) 来描述一个事件发生的可能性。
而似然性(Likelihood) 正好反过来,意思是一个事件实际已经发生了,反推在什么参数条件下,这个事件发生的概率最大。
用数学公式来表达上述意思,就是:
- 已知参数 θ 前提下,预测某事件 x 发生的条件概率为 P(x|θ) ;
- 已知某个已发生的事件 x,未知参数 θ 的似然函数为 L(θ|x);
- 上面两个值相等,即: P(x|θ)=L(θ|x)。需要说明的是两者在数值上相等,但是意义并不相同,一个是关于 θ 的函数,一个是关于 x 的函数,两者从不同的角度描述一件事情。
2.2 最大似然估计的概念
最大似然估计(Maximum Likelihood Estimate)的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
当我们已知事件x发生后,从θ1,θ2,⋯,θn中找出哪一个 θ 参数使的似然函数的值到达了最大值,说明在这个参数下最有可能发生x事件,即这个参数最合理。
2.3 举例和公式
假设一个袋子装有白球与红球,比例未知,现在抽取10次(每次抽完都放回,保证事件独立性),假设抽到了7次白球和3次红球,在此数据样本条件下,估计袋子中白球和红球的比例。大家会猜比例是7:3。
利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。就是采用最大似然估计法求解袋子中白球的比例。
我们已知:
- 样本空间D={x1,x2...,xn}为本次实验的样本空间;
- 白球出现的概率为θ;
- 红球出现的概率为1-θ。
概率函数P(x1,x2...,xn|θ)称为对于样本空间D的θ的似然函数。
如果是参数空间中能使似然函数L(θ)最大的θ值,则
应该是“最可能”的参数值,那么
就是θ的极大似然估计量,记作。
解本案例如下:
- 取一次的概率函数为(取到白球时x=1,红球时x=0):
- 令模型M=f(x;θ)
- 本次事件的概率为:
(为什么多此一举用M转换一次? 只是为了让我理解网上很多资料里面的公式推导,这里的M可以是线性概率密度函数,也可以是正态分布函数等等。)
- 本次事件发生的概率为:
- 令函数值最大,就是对函数求导,并且令导函数等于0.
求解得到结果 θ=0.7
2.4 最大似然估计求解过程
由上可知最大似然估计的一般求解过程:
- 1)写出似然函数;
- 2)对似然函数取对数,并整理;
- 3)求导数 ;
- 4)解似然方程。
参考文档:
优势比和Logistics:大厂数据分析高频面试-逻辑回归和优势比1
最大似然:极大似然估计详解,写的太好了!_极大似然估计函数-优快云博客