A. 数学基础 — 统计学
概述
- 学派
- 频率学派
- 频率学派认为假设是客观存在且不会改变的,即存在固定的先验分布,只是作为观察者的我们无从知晓。因而在计算具体事件的概率时,要先确定概率分布的类型和参数,以此为基础进行概率推演。
- 贝叶斯学派
- 贝叶斯学派则认为固定的先验分布是不存在的,参数本身也是随机数。换言之,假设本身取决于观察结果,是不确定并且可以修正的。数据的作用就是对假设做出不断的修正,使观察者对概率的主观认识更加接近客观实际。
- 频率学派
- 概率估计的方法
- 最大似然估计法
- 最大似然估计法的思想是使训练数据出现的概率最大化,依此确定概率分布中的未知参数,估计出的概率分布也就最符合训练数据的分布。
- 最大后验概率法
- 最大后验概率法的思想则是根据训练数据和已知的其他条件,使未知参数出现的可能性最大化,并选取最可能的未知参数取值作为估计值。
- 最大似然估计法
- 泛化误差的构成
- 偏差:偏差表示算法预测值和真实结果之间的偏离程度,刻画的是模型的欠拟合特性;
- 方差:方差表示数据的扰动对预测性能的影响,刻画的是模型的过拟合特性;
- 噪音:噪声表示在当前学习任务上能够达到的最小泛化误差,刻画的是任务本身的难度。
数据分类
- 分类数据:分类数据代表着对象的属性特点。诸如人群的性别、语言、国籍大都属于分类数据。分类数据通常也可以用数值表示(例如1表示女性而0表示男性),但需要注意的是这一数值并没有数学上的意义仅仅是分类的标记而已。
- 定类数据:是指没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。如性别变量中的男、女取值,可以分别用1、 2表示,民族变量中的各个民族,可以用‘汉’‘回’‘满’等字符表示等。
- 定序数据:具有内在固有大小或高低顺序,一般可以用数值或字符表示。它相对于定类数据类型来说存在一种程度有序现象。如职称变量可以有低级、中级、高级三个取值,可以分别用1、2、3等表示,年龄段变量可以有老、中、青三个取值,分别用A B C表示等。
- 数值数据
- 定距数据:通常是指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据;定距变量用于表示对象等差属性的描述方法。
- 定比数据:定比数据和定距数据一样都是有序的数据排列,但定比数据存在一个绝对的零值,所描述的都是具有零值基准的变量,包括重量、高度和长度等。
- 离散数据
- 连续数据
数据的量度
- 趋势的量度
- 均值
- 问题
- 异常值导致数据倾斜:向右倾斜和向左倾斜
- 问题
- 中位数:奇数个和偶数个的求法
- 问题
- 1, 3, 4, 31, 31, 31, 31:中位数有误导作用
- 问题
- 众数:一批数据中最常见的数值
- 适用场景:当众数的数目较少时,或者当数据为类别数据,而不是数值型数据。均值和中位数都不能用于类别数据
- 不适用场景:当众数很多时
- 均值
- 分散性和变异性的量度
- 分散性量度
- 全距:用数据集的最大数减去数据集中的最小数
- 问题
- 异常值导致的问题,比如说:1,1,1,2,2,3,3,4,5,5,51,1,1,2,2,3,3,4,5,5,5,10
- 问题
- 迷你距
- 四分位距:上四分位数 - 下四分位数优点:不易受异常值影响的“迷你距”
- 百分位数
- 全距:用数据集的最大数减去数据集中的最小数
- 变异性量度
- 计算平均距离:(|均值 - x1| + |均值 - x2| + |均值 - x3|) / 3
- 方差/标准方差
- 标准分:(x - 均值) / 标准方差不同数据集的数据归一化
- 分散性量度
概率计算
- 概述
- 概率、条件概率
- 用概率树表示条件概率
- 全概率公式
- 相互独立事件、相关事件
- 期望值(知识预测结果)、方差(指示结果的分散性)
- 4个X 和 X增长4倍,期望值没变,但是方差不一样
- 排列和组合
- 排序:n!
- 排位:C(n, k)
- 排列:
数据分布
- 两点分布
- 几何分布
- 连续失败r-1次后,第r次成功:p(r - 1)q
- 二项分布
- n次中,成功r次的概率:C(n, r)p®q(n-r)
- 用正态分布近似代替二项分布:np > 5 && nq > 5
- 用泊松分布近似代替二项分布:n > 50 && p < 0.1
- 泊松分布
- 已知平均次数,求发生了r次的概率
- 用正态分布代替泊松分布: λ>15
- 正态分布
- 连续数据
- 概率密度,概率=面积
- 计算正态分布的步骤
- 确定分布和范围:均值、方差
- 使其标准化
- 查找概率
- 连续数据
- T分布
- 当样本足够小的时候
统计抽样
- 抽样
- 步骤
- 确定目标总体
- 确定抽样单位
- 确定抽样空间
- 问题
- 样本偏移:原因
- 抽样空间条目不齐全
- 抽样单位不正确
- 为样本选取的一个个抽样单位未出现在实际样本中
- 调查问卷的问题设计不当
- 样本缺乏随机性
- 样本偏移:原因
- 样本选择方法
- 简单随机抽样
- 抽签
- 随机编号生成器
- 重复抽样
- 不重复抽样
- 分层抽样
- 整群抽样
- 系统抽样
- 简单随机抽样
- 步骤
- 预测
- 概念
- 总体均值、样本均值、点估计量
- 总体方差和样本方差的计算公式有区别
- 中心极限定理:当样本足够大的时候,样本的均值 近似服从正态分布
- 概念
- 置信区间:在多大概率上,样本均值所处的区间
- 步骤
- 选择总体统计量
- 求出其抽样分布
- 决定置信水平
- 求出置信上下限:90% 1.64 95% 1.96 99% 2.58
- 步骤
- 假设检验
- 常规检验
- 步骤
- 确定要进行检验的假设
- 选择检验统计量
- 确定用于做决策的拒绝域
- 单尾检验
- 双尾检验
- 求出检验统计量的p值
- 查看样本结果是否位于拒绝域内
- 做出决策
- 步骤
- 卡方检验
- 适用场景
- 检验拟合优度:检验一组给定的数据与指定分布的吻合程度
- 检验两个变量的独立性
- 步骤
- 确定要进行检验的假设及其备择假设
- 求出期望频数和自由度
- 确定用于做决策的拒绝域
- 计算检验统计量
- 查看检验统计量是否位于拒绝域以内
- 做出决策
- 适用场景
- 常规检验