【机器学习】浙工商机器学习实验指导(一)

一、实验一:线性回归算法实验

1.1 算法引入

简单介绍 OLS,岭回归以及 Lars 三种线性回归算法

1.2 模拟数据实验

  1. 数据生成:按照有无共线性,有无噪声生成四组模拟数据(数据维度自定义)。-----同时,模拟数据可参考:Sayan Mukherjee and Dingxuan Zhou.《learning coordinate covariancs via gradients》一文中 5.1 节的模拟数据,或者其他自定义数据。
  2. 分别利用三种算法对四组模拟数据建立线性回归模型,并利用R2、MSE 和 MAE 等指标评价模型性能,从而对比三种算法的性能,分析三种算法在线性回归中的优缺点以及不同的作用。
  3. 对 1 中同一数据进行多次采样,每次采样后使用 Lars 算法进行变量选择,进而探索 Lars 算法在变量选择中的稳定性—即每次所选变量的相同或者不同情况,并进行变量选择前后回归学习效果的对比。

1.3 Boston 数据实验

  1. 对 Boston 房价数据进行探
  2. 数据的预处理:归一化,缺失值处理等;
  3. 数据的特征工程:特征选择、增加特征等;
  4. 对三种算法在该数据上的性能进行分析。

二、实验二:SVM算法

2.1 算法介绍

简单介绍线性可分支持向量机和非线性支持向量机的原理。

2.2 鸢尾花数据实验

iris—UCI 网站或者 python 自带有这个数据集。

  1. 对鸢尾花数据集进行探索性分析
  2. 对数据集的预处理:离群值、标准化处理等
  3. 选取合适的标价指标,对比分析线性支持向量机和非线性支持向量机的性能。其中,非线性支持向量机采用高斯核、多项式核两种核函数
  4. 探索正则化参数以及两个核函数参数(多项式函数阶数、高斯核尺度参数)对分类结果的影响
  5. 通过实验结果对比不同寻找最优超参数方法

三、实验三:集成学习一

3.1 简单介绍

简单介绍 AdaBoost 和 Random Forest 算法的原理

3.2 Breast Cancer 数据实验

  1. 对 Breast Cancer 数据进行探索性数据分析
  2. 数据预处理
  3. 分别以决策树、逻辑回归、SVM 为基函数,利用网格搜索等方法寻找不同基函数下 AdaBoost 算法的最优参数。利用 Precision、Recall、F1 和 Auc 等指标评价模型,探究和对比不同基函数下的AdaBoost 算法性能
  4. 对比以决策树为基函数的 AdaBoost、Random Forest 以及 Lars算法在 Breast Cancer 分类数据上的重要特征,得出影响 Breast Cancer分类的关键因素

3.3 Boston 数据实验

  1. 对 Boston 房价数据进行探索性分析
  2. 数据预处理
  3. 以 R2、MSE、MAE 等指标为评价标准,探究 Random Forest算法的参数对模型性能的影响
  4. 对单棵决策树以及以决策树为基函数的集成算法(AdaBoost,Random Forest)进行性能对比,探索相较于单模型而言,集成学习的特点

四、实验四:集成学习二

4.1 简单介绍

简单介绍 GBDT 和 XGBoost 算法的原理。

4.2 Titanic 数据实验

  1. 对 Titanic 数据进行探索性分析
  2. 数据预处理:缺失值处理、哑变量处理、分箱操作等
  3. 特征工程:特征提取、特征生成等
  4. 以 Precision、Recall、F1 和 Auc 等指标为评价标准,利用网格搜索等方法找到合适的模型参数,探究并比较 AdaBoost、GBDT、XGBoost 和 Random Forest 集成算法的性能

五、实验五:贝叶斯学习算法实践

5.1 简单介绍

5.2 数据实验

六、实验六:聚类算法

6.1 简单介绍

简单介绍K-means、层次聚类,DBSCAN 和密度峰值聚类(DPC)算法的原理

6.2 鸢尾花数据实验

  1. 对鸢尾花数据集进行探索性分析与预处理
  2. 选取兰德系数和轮廓系数作为评价指标,对四种算法在该数据集上的性能进行分析

6.3 算法参数影响探究

  1. 介绍三种算法中的几个主要参数(K-Means 中的 k 参数、DBSCAN 中的 eps 与 min_samples 参数、DPC 中的 t0参数–t0 的含义为圆中样本个数占数据集总样本数的比例)
  2. 以鸢尾花数据为例,选取合适的评价指标,探究 K-Means 算法中 k 参数对算法的性能影响,并尝试找出确定 k 参数的方法
  3. 以模拟数据为例(如:高斯分布数据集,Spiral 数据集,Circle数据集),选取合适的评价指标,探究另外三个参数(eps 与min_samples、t0)对各自算法的性能影响

七、实验七:降维算法

7.1 简单介绍

简单介绍维数约简的概念和PCA、KPCA以及LLE算法的原理

7.2 模拟数据实验

  1. 模拟环形数据
  2. 利用PCA、KPCA和LLE算法分别对模拟数据进行处理,借助图形可视化,对比不同降维算法在环形数据上的效果

7.3 Breast cancer数据实验

  1. Breast Cancer数据探索性分析
  2. 分别用PCA、KPCA和LLE算法对Breast的特征进行降维
  3. 对降维后的数据进行可视化,并对降维处理后的数据和原始数据分别建立SVM模型,对比降维处理后模型性能的变化,理解降维对建模的意义
目 录 ............................................................... I 实验 1 监督学习中的分类算法应用 .................................. - 1 - 实验目标 .................................................. - 1 - 实验软、硬件环境 .......................................... - 1 - 实验任务.................................................. - 2 - 实验 1.1 Python 开发环境搭建 ...................................... - 2 - 实验目标 .................................................. - 2 - 实验任务 .................................................. - 2 - (1)Python 安装与配置 ............................. - 2 - (2)Pycharm 安装和配置 ............................ - 4 - (3)Python 中安装第三方库 ........................ - 11 - 实验 1.2 K-近邻算法实现 ......................................... - 14 - 实验目标 ................................................. - 14 - 实验任务 ................................................. - 14 - (1)电影类别分类 ................................. - 14 - (2)约会网站配对效果判定 ......................... - 14 - 实验 1.3 决策树算法实现 ......................................... - 16 - 实验目标 ................................................. - 16 - 实验任务 ................................................. - 16 - (1)银行房屋贷款申请 ............................. - 16 - (2)患者佩戴隐形眼镜类型预测 ..................... - 17 - 实验 1.4 朴素贝叶斯算法实现 ..................................... - 19 - 实验目标 ................................................. - 19 - 实验任务 ................................................. - 19 - (1)文本分类 1 ................................... - 19 - (2)文本分类 2 ................................... - 19 - 实验 1.5 Logistic 回归算法实现 ................................... - 21 - 实验目标 ................................................. - 21 - 目 目 录 II 实验任务 ................................................. - 21 - (1)构建 Logistic 回归分类模型 .................... - 21 - (2)预测患疝气病的马的存活问题 ................... - 21 - 实验 1.6 SVM 算法实现 ............................................ - 23 - 实验目标 ................................................. - 23 - 实验任务 ................................................. - 23 - (1)构建 SVM 分类模型 ............................. - 23 - 实验 1.7 监督学习中的分类算法综合应用 ........................... - 24 - 实验目标 ................................................. - 24 - 实验任务 ................................................. - 24 - (1)手写识别系统 ................................. - 24 - (2)电子邮件垃圾过滤 ............................. - 25 - 实验 2 监督学习中的回归算法应用 ................................. - 26 - 实验目标 ................................................. - 26 - 实验软、硬件环境 ......................................... - 26 - 实验任务 ................................................. - 26 - (1)鲍鱼年龄预测 ................................. - 26 - (2)乐高玩具价格预测 ............................. - 27 - 实验 3 无监督学习中的聚类算法应用 ............................... - 29 - 实验目标 ................................................. - 29 - 实验软、硬件环境 ......................................... - 29 - 实验任务 ................................................. - 29 - (1)使用 K 均值算法数据进行聚类分析 ............. - 29 - (2)对地图上的点进行聚类 ......................... - 30 -
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值