数据挖掘之统计学基础(3):【理论】概率分布

数据挖掘之统计学基础(3):【理论】概率分布

0x00前言

概率分布(probabilitydistribution)或简称分布(distribution),是概率论的一个概念。

具有相同分布函数的随机变量一定是同分布的,因此可以用分布函数来描述一个分布,但更常用的描述手段是概率密度函数(probability density function,pdf)。

0x01基本概念

1.随机变量

随机变量(random variable)表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。

随机事件数量化的好处是可以用数学分析的方法来研究随机现象。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数,灯泡的寿命等等,都是随机变量的实例。

2.古典概率

1)概率的定义

表示一个事件发生的可能性的大小的数。

2)古典概率的定义

如果试验中可能出现的基本事件数有n个,而事件A包含的基本事件数为m个,A的概率。

3)特征
  • 有限性
    所有基本事件是有限个。
  • 等可能性
    各基本事件发生的可能性是相等的。

3.条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。

若只有两个事件A,B,则条件概率公式
在这里插入图片描述

4.离散变量

离散型(discrete)随机变量即在一定区间内变量取值为有限个或可数个。例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等。离散型随机变量通常依据概率质量函数分类,主要分为:伯努利随机变量、二项随机变量、几何随机变量和泊松随机变量。

5.连续变量

连续型(continuous)随机变量即在一定区间内变量取值有无限个,或数值无法一一列举出来。例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。有几个重要的连续随机变量常常出现在概率论中,如:均匀随机变量、指数随机变量、伽马随机变量和正态随机变量。

6.期望值

在概率论和统计学中,期望值(或数学期望、或均值,亦简称期望,物理学中称为期待值)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值