医疗领域的混合人工智能与物联网应用探索
一、材料与方法
1.1 数据收集
为构建预测模型,采用了UCI机器学习库中的数据集。该库包含癌症、哮喘、心血管等多种数据集,此次分析选用心血管患者数据集进行模型评估。此数据集涵盖303位患者的详细信息,特征类型有分类、整数和实际值。虽共有76个特征,但已发表的实验主要聚焦于14个特征子集,具体如下表所示:
| Attribute | Description |
| — | — |
| Age | 代表每位患者年龄的整数值 |
| Gender | 男性(1),女性(0) |
| CP | 胸痛类型 |
| trestbps | 静息血压(入院时,单位:mmHg) |
| Chol | 血清胆固醇(单位:mg/dl) |
| Fbs | 空腹血糖 >120 mg/dl(1 = 是;0 = 否) |
| Ca | 经荧光透视显影的主要血管数量(0 - 3) |
| thalach | 达到的最大心率 |
| Slope | 运动峰值ST段的斜率;1:上升;2:平坦;3:下降 |
对于数据集中的缺失值处理规则如下:
- 若某特征缺失次数超过50次,则可将其排除。
- 若缺失率低于10%,数值型特征的缺失值用该特征的平均值替代;非数值型特征的缺失值采用分类方法填充。各特征的缺失率如下表:
| Missing value rate (%) | Feature name | Missing rate value (5) | Feature name |
| — | — | — | — |