数值数据预测:回归方法与树模型
1. 回归模型的优化
1.1 添加非线性关系
在线性回归中,通常假设自变量和因变量之间是线性关系,但实际情况并非总是如此。例如,年龄对医疗支出的影响在不同年龄段可能并非恒定,对于高龄人群,治疗费用可能会大幅增加。为了处理这种非线性关系,可以在回归模型中添加高阶项,将模型视为多项式。
操作步骤如下:
1. 创建一个新变量来表示非线性项,例如年龄的平方:
insurance$age2 <- insurance$age^2
- 在改进的模型中,将年龄和年龄的平方都添加到
lm()公式中:
ins_model2 <- lm(expenses ~ age + age2 + ..., data = insurance)
1.2 数值变量转换为二元指标
当某个特征的影响在达到特定阈值后才会显现时,可以将该数值变量转换为二元指标。例如,BMI(身体质量指数)在正常范围内对医疗支出可能没有影响,但对于肥胖人群(BMI 大于等于 30),可能会导致更高的医疗费用。
操作步骤如下:
1. 使用 ifelse() 函数创建二元肥胖指标变量:
insurance$bmi30 <- ifelse(in
超级会员免费看
订阅专栏 解锁全文
2084

被折叠的 条评论
为什么被折叠?



