1 数据准备
现有一份heart disease.xls数据,内含21个变量,分别是ID(序号)、sex(性别)、age(年龄)、profession(工作强度)、Marital Status(婚姻状况)、owncar(私家车)、emotion(情绪)、tiredness(疲劳度)、exercise(运动量)、diet(饮食习惯)、sitting-up(熬夜)、petting(是否养宠物)、drink(喝酒)、smoking(吸烟)、familiar medical history(家族病史)、fatness(肥胖程度)、hypertension(血压)、blood sugar(血糖)、blood fat(血脂)、diabetes(糖尿病)、coronary heart disease(冠心病)
2 变量分析
性别、年龄、工作强度等19个变量或直接或间接对冠心病的诱发产生影响,例如随着年龄的增大,人体器官随之衰老,身体状况下降也会加速心脏病的发作;工作强度高,精神压力大,休息不好明显增加心脏病的风险;精神压力大,情绪不好,抑郁焦虑等不安因素对人的心血管产生极大的影响,从而增大心脏病的风险;每天适当的运动量有助于增强血液循环,增强抵抗力,提高全身各脏器机能,远离疾病,减少患心脏病的风险;饮食与身体健康息息相关,长期高脂肪高热能饮食容易引发各类疾病,直接引发冠心病等。
3 任务要求
任务一:关联分析
对heartdisease.xls进行关联规则分析引发冠心病的关联因素。
任务二:聚类分析
对heartdisease.xls进行聚类分析,选择合适的聚类数,并选择一两个簇对其特征进行解释。
4 完成任务
4.1关联分析
对于任务一,我们选择关联模型下的Apriori算法,其中“冠心病”变量作为后项,19个影响因素变量作为前项,设置前项支持度阈值为