# 2013.9.4
#---------------------------------------------抽样---------------------------------
1,样本选取的时候,要考虑两个点:
a>偏差:当我们取很多样本时,统计量一直朝同一个方向偏离总体的参数值。
b>变异性:当我们取很多样本时,统计量的值会离散到什么程度。变异性大,就代表不同样本结果可能差别很大。简单来说,不同的抽样样本,统计结果彼此差异很大。
一个好的抽样方法,应该要有小偏差和小变异性。变异性跟样本大小有关,跟总体大小无关。
2,如何处理偏差和变异性:
a>可以通过随机抽样,减少偏差。比如,列出总体,从中简单抽样,得到无偏估计值;
b>通过大样本量,减小变异性。
3,误差界限
其实,误差界限,就是把“变异性”,转成一种我们对调查结果有多少信心的叙述来表达。
误差界限 = 1/ sqrt(N),N表示样本大小;
从上述公式看到,样本越大,误差界限也越小;减少一半的误差界限,要用4倍的样本大小。
4,置信叙述
置信叙述包括两个部分:误差界限(margin of error)和置信水平(level of confidence)。误差界限告诉我们,样本统计量离总体参数多远;置信水平告诉我们,所有可能样本中有多少百分比满足这样的误差界限。
置信叙述说的是一个事实,显现出所以可能样本会发生的状况,我们用它来表达对一个样本的结果有多少信心。“95%”代表“根据我们的抽样方式,有95%的时候可以得到与真正值这么接近的结果“。
所以,
a>置信叙述的结论永远是总体而不是针对样本。
b>我们对总体所做的结论永远不会是完全确定的;
c>抽样调查可以选择95%以外的置信水平。
5,非抽样误差
a>处理误差,即在机械化工作时犯的错误;
b>回应误差:即受访对象给了不正确回答
6,在留意调查结果以前,先问一些问题:
a>谁做的调查?
b>总体是什么?
c>样本是怎么样选取的?
d>样本多大?
e>回应率是多少?
f>用什么方式联络受访者?
g>调查是什么时候做的?
h》问题确实是怎么问的?
# 2013.9.4
# -----------------------------------探索性数据分析(Exploratory Data Analysis)---------------------------------
1,作为探索性数据分析的基础,最强的统一主题是:“察看数据并思考你正在做什么”
2,应用数据分析整个操作步骤分为两个阶段:
a>探索阶段。
b>证实阶段。
总之,探索性数据分析强调灵活探求线索和证据,而证实性数据分析着重评估现有证据。
3,残差 = 数据 - 拟合
4,茎叶图:
a>总体数据接近对称的程度;
b>这些数有多大的展布;
c>是否有些数远离其余数;
d>是否有数据集中;
e>数据中是否有间隙。
# 2013.9.5
#---------------------------------------------------------相关&回归---------------------------------------------------------------------------------------------------------------------------
1,两个变量相关,点密集地群集在一条直线旁,这条线称为SD线,它穿过对两个变量来说与平均数的差都为SD的同样倍数的所有点。
2,