一、分析目标
找到心脏病二次复发的高危人群,预测大概的发作概率,不仅对患者有帮助,对医院提前开展帮扶工作也有好处.
二、数据准备
1.数据说明
- Age: 相应人员的年龄(按四舍五入的方式精确到整数)。- Marital_Status: 相应人员当前的婚姻状况,用以下编号表示: 0 — 一直单身;1 —已婚;2 — 离异;3 — 丧偶。- Gender: 相应人员的性别: 0 表示女性;1 表示男性。- Weight_Category: 将相应人员的体重按以下三个级别分类: 0 表示正常;1 表示超重;2 表示肥胖。- Cholesterol: 相应人员的胆固醇水平,是在治疗最近一次心脏病发作时记录下来的(对于检验数据集中的人员,是在治疗仅有的一次心脏病发作时记录下来的。)- Stress_Management: 一个二元属性,用于表示相应人员先前是否曾参加过压力控制课程: 0 表示没有参加过;1 表示参加过。- Trait_Anxiety: 一个介于 0 到 100 之间的评分,用于衡量每个人的自然压力水平和应对压力的能力。 两个数据集中的每个人在第一次心脏病发作恢复后没一会儿,都接受了一项标准的自然焦虑水平测试。 他们的得分被编制成表,并按五分的增量记录在此属性中。 0 分表示相应人员在任何情况下都从未感到焦虑、压力或紧张,100 分则表示相应人员生活在持续高度焦虑的状况下,并且无法处理自己所面临的情况。- 2nd_Heart_Attack: 该属性仅在训练数据集中存在。 它将是我们的标签,即预测或目标属性。 在训练数据集中,该属性被设置为“Yes”(对于有二次心脏病发作史的人员)和“No”(对于没有二次心脏病发作史的人员)。
2.下载数据集
3.导入数据集
导入测试集
4.建模
5.应用模型进行对测试集进行预测
6.结果说明
7.存储模型
Ending, congratulations, you're done.