深入浅出统计学读书笔记

本文详细介绍了统计学的基本概念,包括信息图形化的不同类型,如直方图、条形图和折线图的适用场景。此外,讨论了集中趋势(中位数、均值)和分散性(标准差、方差)的量度方法,以及概率计算中的几何分布、二项分布和泊松分布。最后,文章涵盖了假设检验和相关性分析,强调了相关并不意味着因果关系,并探讨了最小二乘回归法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.信息图形化
1.垂直条形图更常用。不过,如果类名称太长,水平条形图就有用了–你将有大量空白位置标识每个类的名称。
2.堆积条形图:针对每种游戏,用一条长方形代表这类游戏的满意玩家频数,用另一条长方形代表这类游戏的不满意玩家频数。
分段条形图:可同时体现频数和百分数。这种图用一整段长方形代表一个类,但可以按比例把这一整段长方形分割成几小段。长方形的整体长度反映出整体频数。
3.直方图和条形图的区别:
a.每个长方形的面积等于频数。
b.图上的长方形之间没有间隔。
4.直方图的长方形之间为什么不能有间隔?
a.一是为了体现数值之间没有间隔,每个数值都包含在内。
b.二是让区间宽度反映出所涵盖的数值范围。
4.频数密度指的是分组数据中的频数的密集度,频数密度等于频数除以组距。
5.直方图是一种专门用于体现分组数据的图形。它看上去很像条形图,但每条长方形的高度等于频数密度–而不是频数。
a.绘制直方图时,每个长方形的宽度与其分组宽度(“组距”)成正比例。长方形按照连续的数字标度绘制。
b.直方图中的每个组的频数通过长方形的面积求出。
c.直方图的长方形之间没有间隔。
6.直方图能不能用于体现一个个数字及一批批数字?
能。主要记住这一点:确保长方形之间没有间隔,以及每个长方形的宽度均为1.为了实现这一点,通常可将数据中的数字放在长方形的中央。
7.累计频数:某个数值的累计频数即到这个数值为止(包括这个数值在内)的频数总和。
8.不要使用折线图显示类别数据–除非要显示某个类别的趋势,例如基于时间的趋势。如果要显示每一个类别的趋势,要为每一个类别画一条线。
9.显示总体趋势时,折线图效果更好;在对数值或类别进行比较时,条形图效果更好。
二.集中趋势的量度
1.中位数:当偏斜数据和异常值使均值产生误导时,我们可以用中间值(另一种平均数)表示典型值。
2.均值带来的巨大危险是:当存在异常值时,求出的均值无意义。
3.偏斜数据偏向的判断:偏斜数据有一条“异常值”的尾巴。若要知道数据的偏斜方向,可看看尾巴(图形横轴表示数值,纵轴表示频数)的指向。例如右偏斜数据的尾巴指向右方。具体而言,如果数据向右偏斜,则均值位于中位数右侧(较大),如果数据向左偏斜,则均值位于中位数左侧(偏小)。
4.你认为众数在什么情况下最有用?在什么情况下最无用?
a.当众数的数目较少时,当数据可以分为两个或更多组时,当遇到类别数据时
b.当众数很多时
注:众数是唯一能用于类别数据的平均数
5.什么时候使用均值?
当数据中不存在个别数据,其数值与其他数据相比极大或极小时,用均值较容易刻画数据的平均分布情况。
三.分散性与变异性的量度
1.全矩:全矩也叫极差,是用来量度数据集分散程度的一种方法。其算法为:上界-下界。其中上界为最大值,下界为最小值。全矩仅仅描述了数据的宽度,但并没有描述数据在上下界之间的分布形态。全矩不可能指出数据的真实形态以及数据是否包含异常值。
2.四分位距 :上四分位数 - 下四分位数
优点:与全矩相比,较少受到异常值的影响。
通过四分位距将异常值排除在外的意义是:得到一个将几个数据集进行比较且比较结果不会被异常值扭曲的方法。
3.中位数的计算:如果有n个数,则中位数是位于(n+1)/2位置的数值,如果这个位置处于两个数字之间,则要取这两个数的平均值。
4.求下四分位数的位置(数据从小到大排序):
a.首先计算n/4
b.如果结果为整数,则下四分位数位于“n/4”这个位置和下一个位置的中间,取这两个位置上的数值的平均值,即得下四分位数。
c.如果“n/4”不是整数,则向上取整,所得结果即为下四分位数的位置。
5.求上四分位数的位置(数据从小到大排序):
a.首先计算3n/4
b.如果结果为整数,则上四分位数位于“3n/4”这个位置和上一个位置的中间,取这两个位置上的数值的平均值,即得上四分位数。
c.如果“3n/4”不是整数,则向上取整,所得结果即为上四分位数的位置。
6.百分位数:百分位数是将数据一分为百的数值。每个百分位数按照它所分割出来的数据的百分比进行命名。通常,第k百分位数就是位于数据范围k%处的数值,常用Pk表示。
7.计算百分位数:
a.首先将所有数值按升序排序。
b.为了求出n个数字的第k百分位数的位置,先计算k(n/100)。
c.如果结果为整数,则百分位数位于第k(n/100)位和下一位数之间,取这两个位置上的数字的平均值,得出百分位数。
d.如果k(n/100)不是整数,则将其向上取整,结果即百分位数的位置。
8.箱型图有多种形式。有一些形式刻意把线画短,并明确地用点或星号表示异常值,以及异常值到底有多极端。另一些形式则把均值表示为点,这样你就可以看出均值相对于中位数的位置。
9.如果箱型图是异常对称的,表示基础数据很可能也相当对称。
10.百分位距与四分位距相似,但百分位距是介于两个百分位数之间的距离。
11.不能用四分位距判断得分是否稳定吗?
四分位距仅仅用了一部分数据来量度分散性。如果一位球员有一场比赛得分不佳,这场得分将会被剔除掉。为了实事求是地确定可靠性和稳定性,我们需要考虑所有得分。
12.标准差的计量单位与相应数据的单位相同。
13.在这里插入图片描述
14.标准分通常以字母“z”表示,可通过下式计算:
在这里插入图片描述
标准分的作用是将几个数据集转换成一个理论上的新分布,这个分布的均值为0,标准差为1。标准分可以取任意值,这些值表示相对于均值的位置。正的z分表示数值高于均值,负的z分表示数值低于均值。若z分为0,则数值等于均值本身。z分大小体现了数值与均值的距离。标准分等于距离均值的标准差个数。如果一个数值在距离均值的1个标准差的范围内,我们就知道,数值的标准分在-1到1 之间。与此类似,如果一个数值在距离均值的两个标准差范围之内,则数值的标准分在-2到2之间。
15.用方差和标准差方法量度数据的变异性和分布形态的效果要比全距好得多,因为这二者考虑了数据的聚散情况。
16.标准差和异常值检测有什么关系吗?
我们可以凭主观判断确定异常值,但有时候就可以将异常值定义为偏离均值三个标准差的数值。不过统计学家对此尚有分歧,因此请小心对待。
四.概率计算
1.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值