概率
- 在一个岁随机样本或者随机试验中,一个观测值产生某一特定结果的概率实在长期的一系列观测中该结果出现的比例。
- 长期的:你需要大量的观测试验才能对概率做出准确的估计。
- 比例:概率是一个取值在0到1之间的数,当然也可用百分比表示,0到100。
- 长期观测法的局限性:
1、没有条件展开长期观察;
2、缺乏客观数据,你不得不借助主观判断。
在这种相对主观的方式中,某个结果发生的概率是基于目前可获得的信息,你相信该结果会发生的程度。 - 统计学中的一个分支就是以使用这种主观概率为基础的,被称为贝叶斯统计(Bayesian statistics)。
离散型与连续型变量的概率分布
- 一个变量至少会有两个不同取值。
- 对于一个随机样本或者随机试验,每一个可能出现的结果都对应一个发生的概率。
- 当与概率联系在一起的时候,这个变量就成为了随机变量。
- 随机这个术语强调了不同的观测值中变量的取值按照一定的概率随机变化。
- 当变量的可能取值是一组自然数或整数时,变量为连续型。
- 当可能取值无限连续时,变量为连续型。
- 概率分布列出了变量的所有可能取值和它们的概率。
离散型变量的概率分布
- 离散型变量的概率分布是一个包含了变量所有可能取值以及它们所对应概率的表格、列表或公式。
- 概率分布需要通过参数来描述这个分布的特点。
- 离散型变量概率分布:
这个参数也叫被称为变量X的期望值。期望这个名词表示在一系列重复的观测值之后,我们期望看到的X的均值。 - 离散型变量概率分布的标准差:
连续型变量的概率分布
- 连续型变量的概率分布是一个包含了变量所有可能取值以及它们所对应概率的图示或函数。
- 这个函数通常被称为连续型随机变量的概率密度函数,简称密度函数。
- 实际上,连续型变量的概率分布关注的是变量落入某一区间的概率。
- 变量落入任意一个特定区间的概率在0和1之间。
- 连续型变量概率分布的图示是由一条平滑曲线来表示的。曲线下的面积是变量落入该区间的概率。
- 这条曲线也叫做密度曲线(density curve)。
正态分布
- 正态分布能够很好地代表真实世界中很多变量的分布形态,并且在统计推断中发挥着举足轻重的作用。
- 正态分布(Normal distribution)也叫高斯分布(Gaussian distribution)。
正态分布的特性
- 对称的,呈钟形。均值=中位数=众数,是数据的绝对中心。
- 分布形态由均值和标准差全全决定。
- 正态分布的密度函数:
- 真实世界的很多变量都高度近似地服从正态分布。一种翻译为:常态分布。
- 经验法则:落入3倍标准差内的概率约为99.8%。
- 许多统计推断方法使用一种特别的正态分布,即标准正态分布。它是均值为0,标准差为1的正态分布。
抽样分布
- 在现实生活中,我们极少知道变量的真实分布究竟如何,因为这需要了解研究总体,即所有研究对象。于是,我们研究样本,然后用样本信息对总体分布情况进行推断。