10、探索性数据分析:概率分布、异常值与数据处理

探索性数据分析:概率分布、异常值与数据处理

1. 期望与概率质量函数

在数据分析中,我们常用均值来总结抽样数据的分布,对于随机变量,这一概念被称为期望,通常写作 (E(X)),它代表我们期望出现的值。定义概率分布的函数是概率质量函数,写作 (f (x) = P(X = x)),即计算 (f(x)) 时,结果是 (x) 在分布中出现的概率。

2. 离散分布

离散概率分布与之前讨论的离散分布类似,是结果数量有限且可枚举的函数。

2.1 伯努利试验

只有两种可能结果的实验是伯努利试验,例如抛硬币,在网络安全领域也常见,如:
- 计算机是否开启?
- 系统是否遭受分布式拒绝服务(DDoS)攻击?
- 是否运行 Web 服务器?

但像 “DDoS 期间产生多少流量?” 这类答案不固定的问题就不属于伯努利试验。不过,伯努利试验的概念可用于构建其他概率分布。

2.2 伯努利分布

伯努利分布用于模拟伯努利试验。若一个事件发生的概率为 (p),则该事件不发生的概率为 (1 - p)。例如抛硬币,正面朝上的概率 (p = 0.5),反面朝上的概率 (1 - p = 0.5)。其期望为 (p),方差为 (p(1 - p))。若已知 2% 的计算机开机时会失败,就可以用伯努利分布来建模,失败概率为 2%,不失败概率为 98%,且该分布只关注单个事件。

2.3 几何分布

与只考虑单个实验的伯努利分布不同,几何分布要回答的问题是:在第 (j) 次试验时成功的概率是多少?例如抛硬币 10 次,直到第 4 次才正面朝上的概率。其

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值