均值,中位数(从小到大排列,中间的数,如果是序列数为偶数,则为中间两个值的均值),众数:数列中出现次数最多的数
极差:最大值减最小值,考虑的也是数据集中的一种方式
中程数:极大值加极小值再除以2
象形统计图、条形图(类别或差值)、线形图(趋势)、饼图(占比)、茎叶图、箱线图
这些图形各有作用,不用的话肯定会忘记,但是有个印象再次看的时候也会比较简单特别是茎叶图和箱线图这种用的比较少的,象形统计图其实就是微信朋友圈大量转发的看看有多少人会算错的小学题目那种使用象形来记录,并且每个象形代表的数目不同
描述性统计学
描述集中趋势,均值,中位数,众数,离群值,在平均工资,平均房价,学生成绩等情况中,中位数或者众数更能反映集中趋势,离群值可能有预测量错误或没写特殊条件的值没有参考意义,但是会改变平均值
连续型随机变量
离散型随机变量
离散概率密度分布函数,条形图
连续概率密度分布,因为是连续的,可以去无限值,所以等于某个准确的具体值的概率基本为0,计算的都是某个范围的概率,就是根据概率密度函数积分计算某段的面积
推论型统计学
总体均值μ,样本均值X上一横杠即X“罢”
方差都是要除以数量的,是个差平方和的均值
总体方差sigmod平方,样本方差S方,样本方差通常会小于总体方差,所以出现无偏估计,样本方差的无偏估计是使用n-1取代n作为除数,即所有样本与样本均值的差平方和除以n-1,而不是n
标准差就是方差开根号
协方差表示的是两个随机变量的相关性,两个相互独立的变量协方差一定位0,协方差为0的两个随机变量不一定相互独立,协方差不为0的两个随机变量一定相关,协方差大于0,两个随机变量正相关,反之负相关。
这些概念的定义都是公式的,可以去书上查一下,可能符号稍显复杂,但是理解起来并不复杂
以下部分不再分推论性和描述性统计学,根据视频做的记录,有的添上了自己的理解
二项分布(离散情况)次数越多越趋向钟形曲线(高斯曲线)
二项分布概率计算
连续情况的二项分布即为正态分布 或称为高斯分布
期望值就是总体均值,只不过在无穷个数下,均值无法计算,期望值是规避无穷这个参数而采用频率的另一种计算均值的方式
二次分布的期望值为np,n为总次数,p为每次成功的概率,所以期望值就是做了m个n次事件,m次事件中,平均每n次中成功多少次。
视频中公式就是离散期望的计算方法,做了m个n次试验,每个n次实验成功次数为k,再乘以概率,把成功0次到成功n次都加起来就是期望,化简以后就是np
泊松过程
大数定理:当样本数趋于无穷时,样本均值无限接近与总体均值
对于大数定理的错误理解,当前面有限次样本均值高于总体期望时,后面会出现低于总体期望的样本均值来弥补,使总的样本均值趋向于总体期望,这是错误的理解。大数定理不关心有限次的试验的结果,而是在无限次的实验中的样本期望会接近于总体期望,在这种情况下,有限次高于总体期望的样本均值在无限次接近总体期望的平均下,就不会产生很大的影响,事件发生的概率不会改变,更不会因为前面试验的样本均值,而影响后面的样本均值。
正态分布、标准Z分数即样本距离总体均值有多少个标准差,就是正态分布公式中(x-μ)/sigmod
项
经验法则:68.3-95.4-99.7即标准Z分数为1时,其概率为68.3%左右,2个标准差(即z=2)时,概率为95%左右,三个标准差时概率为99.7%左右
中心极限定理:
样本均值的抽样分布:从原样本(任意某种分布)中抽取样本,做均值处理。样本值越大,即所抽取样本越多,越接近正态分布
正偏态分布、负偏态分布(概率偏右,左侧尾部较长)、正峰态(尖)、负峰态(圆滑,扁平)
样本均值抽样分布的方差(均值标准差)为(原分布方差/样本容量)再开方
通过例题的理解,对样本均值的抽样分布有了更好的理解,针对总体任何分布,知道均值和方差,取相应样本容量,由中心极限定理可得知均值接近,可计算标准差,进而估计某些情况的概率(男性每天喝水均值2L,标准差0.7,样本容量50,求:一天带了110L水,50个男性不够喝的概率。可求得每人平均2.2L,标准差为0.7/根号下50=0.099,(标准Z分数)Z=0.2/0.099
=2.02,即2.02个标准差,插Z分数表可得小于该区间的概率为97.83%,所以不够的概率为2.17%)
伯努利分布的期望与方差,上面图片的0-1分布就是伯努利分布,是二项分布的特殊情况
对于机器学习中的概率部分跑不出以下情况,不会涉及非常高深的数学内容,掌握了就没问题(这可不是我说的)
基础概念:
期望,方差,协方差,概率与频率,PMF/PDF期望方差概念
各种分布汇总:
均匀分布,0-1分布,二项分布,多项分布,泊松分布,正态分布,Gamma分布,Beta分布
Dirichlet分布,共轭分布,t分布,F分布,卡方分布
常用方法:
极大似然法,最大后验估计