数值数据预测——回归方法
在之前的基础上,我们开始将回归知识应用到更具挑战性的学习任务中,以预测医疗费用为例,详细介绍线性回归的应用。
预测医疗费用的背景
健康保险公司要盈利,需使年度保费收入高于为受益人支付的医疗费用。因此,保险公司投入大量时间和金钱开发能准确预测参保人群医疗费用的模型。医疗费用难以估算,因为高成本病症罕见且看似随机,但某些病症在特定人群中更普遍,如吸烟者患肺癌概率更高,肥胖者患心脏病概率更大。分析目标是用患者数据估算特定人群的平均医疗费用,这些估算可用于创建精算表,根据预期治疗成本调整年度保费价格。
步骤 1:收集数据
我们使用包含美国患者假设医疗费用的模拟数据集,该数据基于美国人口普查局的人口统计数据创建,大致反映现实情况。若要交互式操作,可从相关网站下载 insurance.csv 文件并保存到 R 工作文件夹。
insurance.csv 文件包含 1338 个参保受益人示例,包含患者特征和年度医疗总费用,具体特征如下:
- age :主要受益人的年龄(不包括 64 岁以上人群,他们通常由政府承保)。
- sex :投保人的性别,分为男性和女性。
- bmi :身体质量指数(BMI),反映体重相对于身高的情况,计算公式为体重(千克)除以身高(米)的平方,理想范围是 18.5 至 24.9。
- children :保险计划覆盖的子女/受抚养人数量。
-
超级会员免费看
订阅专栏 解锁全文
1629

被折叠的 条评论
为什么被折叠?



