#统计学# 笔记

这篇笔记涵盖了统计学中的抽样方法,讨论了偏差和变异性,解释了误差界限和置信叙述的概念。此外,还提到了非抽样误差及其处理,并强调了在分析调查结果前应考虑的问题。在探索性数据分析部分,介绍了其重要性和操作步骤,而相关与回归分析则涉及变量间的关联和SD线的定义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# 2013.9.4

#---------------------------------------------抽样---------------------------------

1,样本选取的时候,要考虑两个点:

a>偏差:当我们取很多样本时,统计量一直朝同一个方向偏离总体的参数值。

b>变异性:当我们取很多样本时,统计量的值会离散到什么程度。变异性大,就代表不同样本结果可能差别很大。简单来说,不同的抽样样本,统计结果彼此差异很大。

一个好的抽样方法,应该要有小偏差和小变异性。变异性跟样本大小有关,跟总体大小无关。


2,如何处理偏差和变异性:

a>可以通过随机抽样,减少偏差。比如,列出总体,从中简单抽样,得到无偏估计值;

b>通过大样本量,减小变异性。


3,误差界限

其实,误差界限,就是把“变异性”,转成一种我们对调查结果有多少信心的叙述来表达。

误差界限 = 1/ sqrt(N),N表示样本大小;

从上述公式看到,样本越大,误差界限也越小;减少一半的误差界限,要用4倍的样本大小。


4,置信叙述

置信叙述包括两个部分:误差界限(margin of error)和置信水平(level of confidence)。误差界限告诉我们,样本统计量离总体参数多远;置信水平告诉我们,所有可能样本中有多少百分比满足这样的误差界限。

置信叙述说的是一个事实,显现出所以可能样本会发生的状况,我们用它来表达对一个样本的结果有多少信心。“95%”代表“根据我们的抽样方式,有95%的时候可以得到与真正值这么接近的结果“。

所以,

a>置信叙述的结论永远是总体而不是针对样本。

b>我们对总体所做的结论永远不会是完全确定的;

c>抽样调查可以选择95%以外的置信水平。


5,非抽样误差

a>处理误差,即在机械化工作时犯的错误;  

b>回应误差:即受访对象给了不正确回答


6,在留意调查结果以前,先问一些问题:

a>谁做的调查?

b>总体是什么?

c>样本是怎么样选取的?

d>样本多大?

e>回应率是多少?

f>用什么方式联络受访者?

g>调查是什么时候做的?

h》问题确实是怎么问的?


# 2013.9.4

# -----------------------------------探索性数据分析(Exploratory Data Analysis)---------------------------------

1,作为探索性数据分析的基础,最强的统一主题是:“察看数据并思考你正在做什么”

2,应用数据分析整个操作步骤分为两个阶段:

a>探索阶段。

b>证实阶段。

总之,探索性数据分析强调灵活探求线索和证据,而证实性数据分析着重评估现有证据。

3,残差 = 数据 - 拟合

4,茎叶图:

a>总体数据接近对称的程度;

b>这些数有多大的展布;

c>是否有些数远离其余数;

d>是否有数据集中;

e>数据中是否有间隙。


# 2013.9.5 

#---------------------------------------------------------相关&回归---------------------------------------------------------------------------------------------------------------------------

1,两个变量相关,点密集地群集在一条直线旁,这条线称为SD线,它穿过对两个变量来说与平均数的差都为SD的同样倍数的所有点。

2,


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值