【机器学习】机器学习与统计分布的关系

本文介绍了机器学习中常见的统计分布,包括伯努利、二项和泊松分布等离散分布,以及正态和均匀分布等连续分布。特别讨论了为什么在机器学习中常使用sigmoid这类S型非线性变换,以及如何通过累积分布函数将正态分布转换为均匀分布。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.常见的统计学分布

1)离散分布

a. 伯努利分布

又称之为二点分布或者0-1分布,是一种离散分布,例如抛硬币的正面或反面,物品有缺陷或没缺陷,病人康复或未康复,此类满足「只有两种可能,试验结果相互独立且对立」的随机变量通常称为伯努利随机变量。

对于伯努利随机变量 X,如果使用 1 表示成功,其概率为 p(0<p<1);使用 0 表示失败,其概率为 q=1-p。则可以称伯努利随机变量 X 服从参数为 p 的伯努利分布,其X的概率函数为:
在这里插入图片描述


b. 二项分布

假设某个试验是伯努利试验,其成功概率用p表示,那么失败的概率为q=1-p。进行n次这样的试验,成功了x次,则失败次数为n-x,发生这种情况的概率可用下面公式来计算:
在这里插入图片描述
二项分布,可以看成是完成N次伯努利试验的分布,也可以被称之为N重伯努利实验。

n 重伯努利试验需满足下列条件:

  1. 每次试验只有两种结果,即 X=1,或 X=0
  2. 各次试验中的事件互相独立,且 X=1 和 X=0 的概率分别为 p(0<p<1) 和 1-p

二项分布的另一个性质是其分布形状的变化规律。从二项分布概率质量函数P(x)可知,概率分布只与试验次数n和成功概率p有关,其分布形状的变化规律为:

  1. "成功"概率p越接近0.5(也即"成功"概率与"失败"概率越接近),二项分布将越对称。保持二项分布试验的次数n不变,随着成功概率p越接近0.5,二项分布逐渐对称,且近似于均值为np、方差为npq的正态分布。(见下图的第一排3个子图)
  2. 对于任意"成功"概率p,无论其距离0.5有多远,随着试验次数n的增加,二项分布与均值为np、方差为npq的正态分布越来越接近。(见下图的第二排3个子图)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值