第一节是建立线性回归模型以及对于其模型预测效果的讨论,这一节做一下模型中引入一个离散型预测变量。依然使用上一节中的usair数据集,在模型中增加x5(降水量:年度发生降雨的天数)作为预测变量,该预测变量有三种类别(低、中、高),将他们的分界点划分为30天和45天,研究降水量和so2浓度是否存在关联,模型建立如下所示:
plot(y~x5,data=usair,cex.lab=1.5) #画y和x5的点图
abline(lm(y~x5,data=usair),col='red',lwd=2.5,lty=1) #总体拟合曲线,
abline(lm(y~x5,data=usair[usair$x5<=45,]),col='blue',lwd=2.5,lty=3) # 小于45天的
abline(lm(y~x5,data=usair[usair$x5>=30,]),col='green',lwd=2.5,lty=2) #大于30天的
abline(v=c(30,45),col='yellow',lwd=2.5) #分界线
legend('topleft',lty=c(1,3,2,1),lwd=rep(2.5,4),legend=c('y ~ x5','y ~ x5 | x5<=45','y ~ x5 | x5>=30','Critical zone'),col=c('red','blue','green'