机器学习–糖尿病分类算法
实验目的
- 掌握主要分类算法的基本原理与实现。
- 比较不同分类算法的结果,分析其优缺点
实验问题背景
根据美国疾病控制预防中心统计,现在美国1/7的成年人患有糖尿病。到2050年,这个比例将会增长至1/3。据分析,是否糖尿病患者与怀孕次数,血糖、血压、皮脂厚度、胰岛素、BMI身体质量指数、糖尿病遗传函数、年龄等特征密切相关。通过机器学习预测是否患有糖尿病,具有非常大的应用价值。
实验问题描述
现有一份糖尿病患者数据集diabetes.csv,该数据集有768个数据样本,每个样本有8个特征和一个类别标签,具体信息如下:
实验要求
1.对数据做适当必要的预处理,将数据集按照3:1分为训练集和验证集。
2.运用决策树、支持向量机、近邻法、贝叶斯等分类算法(至少实现其中两种)实现分类。
3.比较不同分类算法的结果,分析其优缺点。
分析算法实现中关键参数的影响,以曲线等可视化的方式展示。
KNN算法
1.不掉包,自己编程实现
1.编写距离函数:计算测试样本点(也就是待分类点)到其他每个样本点的距离 ,距离使用欧几里得距离
2.