目录
一、为什么要学习统计学
1. 存在图表玄机问题,在横向和纵向以及坐标轴上动手脚能够忽悠人
2. 学习统计学,让我们理清思路,学会分析事物之间各种各样的关系,
例如A越多,B越多,这样的句子能说明A和B的相关性,不能说明因果关系,但因果关系一定是相关关系
🌰尼古拉斯凯奇在电影里出现的次数和淹死在游泳池里的人数相关性
全美滑雪场的总收入与被被单缠死的人数的相关性
所以两件事的相关性很强,同时放在一起有意义,才能被我们利用
所以学习统计学,让我们理清思路,学会分析事物之间各种各样的关系
3. 打破权威
常见的如何分辨数据的真假方法?
- 谁说的?
- 数据从哪里来的?
- 数据有遗漏吗?
- 是否有人偷换了概念?
- 数据有意义吗?
4. 数据分析
学习统计,揭示数据后的真实含义,找到真相
二、统计小百科
1. 概率和机会
概率:描述某件事情出现的可能性的大小;
概率与机会的关系:概率描述了某件事情发生的机会的多少,0-1之间;
条件概率:在某种条件或者信息下对事件发生的可能性大小称为条件概率;
相关事件:如果几个事件互相有影响,则为相关事件,即一件事件的发生与否会影响另一件事件的发生概率;
独立事件:如果几个事件互不影响,则为独立事件,即无论其他事件发生与否,某个事件的发生概率保持不变
互斥事件:事件A和事件B不可能同时发生,互斥事件即AB同时发生的概率为0,即P(AB)=0;
2. 统计是什么
统计是一门收集数据,处理和分析数据,解释数据并从数据中得出结论的科学
统计方法分为描述统计和推断统计
描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法,目的是为了描述数据特征,找到数据的基本规律
比如,df.describe()得出的结果
什么是推断统计?参数估计+假设检验
推断统计是如何利用样本数据来推断总体特征的方法
参数估计:利用样本信息估计总体特征,比如从样本均值估计总体均值
假设检验:利用样本信息判断对总体的假设是否成立,比如小概率事件,比如反证法
3.变量和常量
变量与常量:都是统计学研究的对象特征,在数量指标中,不变的数量指标称为常量或参数,可变的数量指标称为变量。
- 按变量值是否连续:
分为连续变量和离散变量。离散变量指数值只能用自然数或整数单位计,如人数等;连续变量指在一定区间内可以任意取值的变量,其数值是连续不断的,如身高,血压,体重等。
区分:连续变量是一直叠加上去的,是逐渐增长的,增长量可以划分为固定的单位,即1,2,3…;离散变量是对所有统计对象的计数,增长量是非固定的,不是逐渐增长的。
- 按变量值是否能量化:
分为定性变量与定量变量。可以由数字量化的变量就是定量变量,无法用数字表示的变量就是定性变量,如性别,观点等。
4.数据有几种类型
按不同类型分类
- 按计量层次:分为数值型(如成绩100分),分类型(如性别分男女),顺序型(如等级分一等、二等、三等)
注意,不同类型数据可以相互转化的
- 按时间状况:分为截面数据和时序数据。
截面数据指在同一时间,由不同统计单位和相同统计指标组成的一组数据,例如股票数据。不要求统计对象及其范围相同,但要求统计时间相同。
时序数据是在不同时间点上收集到的数据,该类数据反映的是某一现象等随时间的变化状态或程度。如每天气温
5、易混淆的统计术语
- 绝对数与相对数
绝对数:反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标
相对数:指由两个有联系的指标对比计算而得到的数值
- 频数与频率
频数:一组数据中个别数据重复出现的次数(绝对数)
频率:每个小组的频数与数据总和的比值,它代表的是某组在总体中出现的频繁程度(百分