利用Logistic回归技术实现糖尿病发病预测
数据说明
数据说明: Pima Indians Diabetes Data Set(皮马印第安人糖尿病数据集) 根据现有的医疗信息预测5年内皮马印第安人糖尿病发作的概率。
数据链接:https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes
p.s.: Kaggle也有一个Practice Fusion Diabetes Classification任务,可以试试:)
https://www.kaggle.com/c/pf2012-diabetes
1)文件说明
pima-indians-diabetes.csv:数据文件
2)字段说明
数据集共9个字段:
pregnants:怀孕次数
Plasma_glucose_concentration:口服葡萄糖耐量试验中2小时后的血浆葡萄糖浓度
blood_pressure:舒张压,单位:mm Hg
Triceps_skin_fold_thickness:三头肌皮褶厚度,单位:mm
serum_insulin:餐后血清胰岛素,单位:mm
BMI:体重指数(体重(公斤)/ 身高(米)^2)
Diabetes_pedigree_function:糖尿病家系作用
Age:年龄
Target:标签, 0表示不发病,1表示发病
第一步 特征工程
对于原始数据的处理使用了一下几个方法: