机器学习在健康保险与酒店行业的应用洞察
健康保险领域的机器学习应用
在健康保险领域,机器学习展现出了强大的预测能力。我们可以从数据获取、特征工程、模型训练与评估等方面来深入了解其应用。
数据获取
可从 KAGGLE 下载个人医疗保健支出数据集,该数据集由 Miri Choi 在 2018 年提交,包含七个属性,具体如下表所示:
| Sr. No. | Feature name | Description |
| ---- | ---- | ---- |
| 1 | Age | 年龄是医疗保健的主要考虑因素 |
| 2 | Sex | 性别 |
| 3 | BMI (Body mass index) | 了解人体情况,与身高相比体重过高或过矮 |
| 4 | Children | 受抚养人/子女数量 |
| 5 | Smoker | 吸烟状态 |
| 6 | Region | 居住地区 |
| 7 | Charges | 健康保险涵盖的医疗费用 |
特征工程
特征工程是机器学习中提高算法效率的重要方法。通过逐步处理,将特定领域的专业知识应用于原始数据。在医疗保险成本统计中,吸烟状态、身体质量指数和患者年龄等属性起着关键作用。而性别、子女数量和地区对成本影响不大,在生成热图以确定因变量和自变量之间的关系后,可能会决定不包含这三列。热图有助于直观地看出哪些特征之间或与感兴趣的因变量之间的相关性最强。
Principal Component Analysis (PCA) 常用于从数据中提取特征并降低数据集的维度。通过该方法,高维数据
超级会员免费看
订阅专栏 解锁全文
45

被折叠的 条评论
为什么被折叠?



