数据挖掘之统计学基础(3):【理论】概率分布
0x00前言
概率分布(probabilitydistribution)或简称分布(distribution),是概率论的一个概念。
具有相同分布函数的随机变量一定是同分布的,因此可以用分布函数来描述一个分布,但更常用的描述手段是概率密度函数(probability density function,pdf)。
0x01基本概念
1.随机变量
随机变量(random variable)表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。
随机事件数量化的好处是可以用数学分析的方法来研究随机现象。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数,灯泡的寿命等等,都是随机变量的实例。
2.古典概率
1)概率的定义
表示一个事件发生的可能性的大小的数。
2)古典概率的定义
如果试验中可能出现的基本事件数有n个,而事件A包含的基本事件数为m个,A的概率。
3)特征
- 有限性
所有基本事件是有限个。 - 等可能性
各基本事件发生的可能性是相等的。
3.条件概率
条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。
若只有两个事件A,B,则条件概率公式
4.离散变量
离散型(discrete)随机变量即在一定区间内变量取值为有限个或可数个。例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等。离散型随机变量通常依据概率质量函数分类,主要分为:伯努利随机变量、二项随机变量、几何随机变量和泊松随机变量。
5.连续变量
连续型(continuous)随机变量即在一定区间内变量取值有无限个,或数值无法一一列举出来。例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。有几个重要的连续随机变量常常出现在概率论中,如:均匀随机变量、指数随机变量、伽马随机变量和正态随机变量。
6.期望值
在概率论和统计学中,期望值(或数学期望、或均值,亦简称期望,物理学中称为期待值)