统计学入门

本文介绍了统计学在数据分析中的应用,涵盖了描述性统计学和推断性统计学的基础概念,如均值、中位数、众数、方差、标准差等,并探讨了随机变量及其类型,以及概率密度函数的概念。

统计学入门

目的:数据分析的工作,需要学习统计学的基础课程;

我想要的目的:统计学中在数据分析中用到知识和概念,最好有落地的方法论已做指导;

哈里斯堡社区大学公开课:统计学入门

http://open.163.com/special/opencourse/statistics.html

1.笔记:

1.统计学分为2枝,描述性统计学和推断性统计学;
描述性统计学:收集和报告(描述和总结)
推断性统计学(建立在样本之上):收集样本,特征观察,根据样本做出推断
数据中的参数:分为定性(类似于描述)和定量(数字描述)
定量变量分为2部分:离散随机变量和连续的随机变量(往往是测量结果)

 

可汗学院:统计学

http://open.163.com/movie/2017/8/6/O/MCU0FC1GD_MCU0GUS6O.html

笔记:(目前大多涉及数据统计方法)

均值:数据之和除以数据个数的结果
中位数:数据排序后,处于中间的数据,奇数个数去中间,偶数个数是中间2个数的均值
众数:出现次数最多的数据
极差:最大值与最小值的差;
中程树:最大值与最小值的均值
象形统计图是象形图像表示统计数据的图像;
条形图:分类汇总数据
线形图:表示趋势
饼图:表示占比
图形误导:图形刻度
茎叶图:是将数组中的数按照位数进行比较,分别做茎和叶,以此做数据统计;

盒须图:展示数据分布,同时可显示中位数,极差等等数据;

 
描述统计学:
集中趋势:描述数据的特定数值;
均值--算数平均数
离群值--特殊数据
样本:
总体:

在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。
为避免出现离均差总和为零,离均差平方和受样本含量的影响,
举例:
1,2,3,4,5,6,7
平均值:4
方差:[(1-4)^2+(2-4)^2+(3-4)^2+(4-4)^2+(5-4)^2+(6-4)^2+(7-4)^2]/7=4
统计学采用平均离均差平方和来描述变量的变异程度。
总体方差:方差用来表述数据和均值之间的偏离程度,总体方差的计算公式是σ2=Σ(Xi-μ)2/N,
其中求和的i从1到N。
样本方差:样本方差不同于总体方差,
计算公式为S2=Σ(Xi-μ)2/(n-1),其中求和的i从1到n,
这里方差用的是n-1而不是n。
标准差:标准差σ是表述数据和均值之间的偏离程度的另一个重要标志。
它等于方差的平方根。
例子:
“标准差”(standard deviation)也称“标准偏差”,它可以通过计算方差的算术平方根来求得。标准差表征了各数据偏离平均值的距离,它反映出一个数据集的离散程度。

计算标准差的步骤通常有四步:
(1)计算平均值
(2)计算方差
(3)计算平均方差
(4)计算标准差

例如,对于一个有六个数的数集2,3,4,5,6,8,其标准差可通过以下步骤计算:

(1)计算平均值:
(2 + 3 + 4 + 5+ 6 + 7+4)/6 = 24/6 = 4

(2)计算方差:
(2 – 5)^2 = (-3)^2= 9
(3 – 5)^2 = (-2)^2= 4
(4 – 5)^2 = (-1)^2= 0
(5 – 5)^2 = 0^2= 0
(6 – 5)^2 = 1^2= 1
(8 – 5)^2 = 3^2= 9

(3)计算平均方差:
(9 + 4 + 0 + 0+ 1 + 9)/6 = 24/6 = 4

(4)计算标准差:
√4 = 2
随机变量:随机变量是表示随机现象各种结果的变量。
萨尔曼认为随机变量并不是传统意义上的变量,
而是一种由随机过程映射到数值的函数。
例如:骰子抛出的数值就是随机变量;
分为:离散的和连续的
连续随机变量:连续型随机变量是指如果随机变量X的所有可能取值不可以逐个列举出来,
而是取数轴上某一区间内的任一点的随机变量。
当随机变量的可取值全体为一离散集时称其为离散型随机变量
概率密度函数:概率密度函数的概念。求概率也就是对概率密度函数进行积分。

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值