|
数据分析与R语言 第4周 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
假设检验原理 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
2 |
|
假设检验的原理 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
3 |
|
假设检验的原理 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
4 |
|
否定域 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
5 |
|
不否定<>正确 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
6 |
|
T分布密度函数 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
7 |
|
T分布密度函数 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
8 |
|
T检验法 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
9 |
|
lm()线性模型函数 |
|
n y~1+x或y~x均表示y=a+bx有截距形式的线性模型 n 通过原点的线性模型可以表达为:y ~ x - 1 或y ~ x + 0 或 y ~ 0 + x 参见help(formula) |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
10 |
|
与线性模型有关的函数 |
|
建立数据:身高-体重 |
|
x=c(171,175,159,155,152,158,154,164,168,166,159,164) |
|
y=c(57,64,41,38,35,44,41,51,57,49,47,46) |
|
建立线性模型 a=lm(y~x) 求模型系数 > coef(a) |
|
(Intercept) |
|
x |
|
-140.36436 1.15906 提取模型公式 > formula(a) y ~ x |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
11 |
|
与线性模型有关的函数 |
|
计算残差平方和(什么是残差平方和) |
|
> deviance(a) |
|
[1] 64.82657 |
|
绘画模型诊断图(很强大,显示残差、拟合值和一些诊断情况) > plot(a) |
|
计算残差 |
|
> residuals(a) |
|
1 2 3 4 5 6 7 -0.8349544 1.5288044 -2.9262307 -1.2899895 -0.8128086 1.2328296 2.8690708 8 9 10 11 12 1.2784678 2.6422265 -3.0396529 3.0737693 -3.7215322 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
12 |
|
与线性模型有关的函数 |
|
打印模型信息 |
|
> print(a) |
|
Call: |
|
lm(formula = y ~ x) |
|
Coefficients: |
|
(Intercept) x -140.364 1.159 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
13 |
|
与线性模型有关的函数 |
|
计算方差分析表 |
|
’ |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
14 |
|
与线性模型有关的函数 |
|
提取模型汇总资料 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
15 |
|
与线性模型有关的函数 |
|
作出预测 |
|
> z=data.frame(x=185) > predict(a,z) |
|
1 |
|
74.0618 |
|
> predict(a,z,interval="prediction", level=0.95) fit lwr upr 1 74.0618 65.9862 82.13739 课后阅读:薛毅书,p308,计算实例 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
16 |
|
多元线性相关分析 |
|
n 研究多个变量之间的关系 |
|
n 例子:iris数据集,研究花 瓣和花萼的长度、宽度之间 的联系 |
|
准备数据: |
|
x=iris[which(iris$Species =="setosa"),1:4] |
|
画出散点图集:plot(x) |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
17 |
|
多元线性相关分析 |
|
n 计算相关系数矩阵,cor()函数 |
|
n 暂时没有发现可以在多元情况下进行相关性检验的函数,只能对变量两两进行检验 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
18 |
|
多元线性回归 |
|
n Swiss数据集: Swiss Fertility and Socioeconomic Indicators (1888) Data |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
19 |
|
多元线性回归 |
|
建立多元线性模型 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
20 |
|
多元线性回归 |
|
模型汇总信息 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
21 |
|
多元线性回归 |
|
n 多元线性回归的核心问题:应该选择哪些变量? n 一个非典型例子(薛毅书p325) |
|
n RSS(残差平方和)与R2(相关系数平方)选择法:遍历所有可能的组合,选出使RSS |
|
最小,R 最大的模型 2 |
|
n AIC(Akaike information criterion)准则与BIC (Bayesian information criterion |
|
)准则 |
|
AIC=n ln (RSSp/n)+2p |
|
n为变量总个数,p为选出的变量个数,AIC越小越好 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
22 |
|
多元线性回归 |
|
n 逐步回归 |
|
n 向前引入法:从一元回归开始,逐步增加变量,使指标值达到最优为止 n 向后剔除法:从全变量回归方程开始,逐步删去某个变量,使指标值达到最优为止 n 逐步筛选法:综合上述两种方法 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
23 |
|
多元线性回归 |
|
n step( )函 |
|
数 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
24 |
|
多元线性回归 |
|
n 是否还有优化余地? |
|
n 使用drop1作删除试探,使用add1函数作增加试探 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
25 |
|
多元线性回归 |
|
n 薛毅书,p330例子 |
|
2012.5.28 |
|
DATAGURU专业数据分析网站 |
|
26 |
|
FAQ时间 |
|
DATAGURU专业数据分析网站 |
|
27 |
4302

被折叠的 条评论
为什么被折叠?



