探索性数据分析:概率分布、异常值与数据处理
1. 期望与概率质量函数
在数据分析中,我们常用均值来总结抽样数据的分布,对于随机变量,这一概念被称为期望,通常写作 (E(X)),它代表我们期望出现的值。定义概率分布的函数是概率质量函数,写作 (f (x) = P(X = x)),即计算 (f(x)) 时,结果是 (x) 在分布中出现的概率。
2. 离散分布
离散概率分布与之前讨论的离散分布类似,是结果数量有限且可枚举的函数。
2.1 伯努利试验
只有两种可能结果的实验是伯努利试验,例如抛硬币,在网络安全领域也常见,如:
- 计算机是否开启?
- 系统是否遭受分布式拒绝服务(DDoS)攻击?
- 是否运行 Web 服务器?
但像 “DDoS 期间产生多少流量?” 这类答案不固定的问题就不属于伯努利试验。不过,伯努利试验的概念可用于构建其他概率分布。
2.2 伯努利分布
伯努利分布用于模拟伯努利试验。若一个事件发生的概率为 (p),则该事件不发生的概率为 (1 - p)。例如抛硬币,正面朝上的概率 (p = 0.5),反面朝上的概率 (1 - p = 0.5)。其期望为 (p),方差为 (p(1 - p))。若已知 2% 的计算机开机时会失败,就可以用伯努利分布来建模,失败概率为 2%,不失败概率为 98%,且该分布只关注单个事件。
2.3 几何分布
与只考虑单个实验的伯努利分布不同,几何分布要回答的问题是:在第 (j) 次试验时成功的概率是多少?例如抛硬币 10 次,直到第 4 次才正面朝上的概率。其
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



