文章目录
一、实验一:线性回归算法实验
1.1 算法引入
简单介绍 OLS,岭回归以及 Lars 三种线性回归算法
1.2 模拟数据实验
- 数据生成:按照有无共线性,有无噪声生成四组模拟数据(数据维度自定义)。-----同时,模拟数据可参考:Sayan Mukherjee and Dingxuan Zhou.《learning coordinate covariancs via gradients》一文中 5.1 节的模拟数据,或者其他自定义数据。
- 分别利用三种算法对四组模拟数据建立线性回归模型,并利用R2、MSE 和 MAE 等指标评价模型性能,从而对比三种算法的性能,分析三种算法在线性回归中的优缺点以及不同的作用。
- 对 1 中同一数据进行多次采样,每次采样后使用 Lars 算法进行变量选择,进而探索 Lars 算法在变量选择中的稳定性—即每次所选变量的相同或者不同情况,并进行变量选择前后回归学习效果的对比。
1.3 Boston 数据实验
- 对 Boston 房价数据进行探
- 数据的预处理:归一化,缺失值处理等;
- 数据的特征工程:特征选择、增加特征等;
- 对三种算法在该数据上的性能进行分析。
二、实验二:SVM算法
2.1 算法介绍
简单介绍线性可分支持向量机和非线性支持向量机的原理。
2.2 鸢尾花数据实验
iris—UCI 网站或者 python 自带有这个数据集。
- 对鸢尾花数据集进行探索性分析
- 对数据集的预处理:离群值、标准化处理等
- 选取合适的标价指标,对比分析线性支持向量机和非线性支持向量机的性能。其中,非线性支持向量机采用高斯核、多项式核两种核函数
- 探索正则化参数以及两个核函数参数(多项式函数阶数、高斯核尺度参数)对分类结果的影响
- 通过实验结果对比不同寻找最优超参数方法
三、实验三:集成学习一
3.1 简单介绍
简单介绍 AdaBoost 和 Random Forest 算法的原理
3.2 Breast Cancer 数据实验
- 对 Breast Cancer 数据进行探索性数据分析
- 数据预处理
- 分别以决策树、逻辑回归、SVM 为基函数,利用网格搜索等方法寻找不同基函数下 AdaBoost 算法的最优参数。利用 Precision、Recall、F1 和 Auc 等指标评价模型,探究和对比不同基函数下的AdaBoost 算法性能
- 对比以决策树为基函数的 AdaBoost、Random Forest 以及 Lars算法在 Breast Cancer 分类数据上的重要特征,得出影响 Breast Cancer分类的关键因素
3.3 Boston 数据实验
- 对 Boston 房价数据进行探索性分析
- 数据预处理
- 以 R2、MSE、MAE 等指标为评价标准,探究 Random Forest算法的参数对模型性能的影响
- 对单棵决策树以及以决策树为基函数的集成算法(AdaBoost,Random Forest)进行性能对比,探索相较于单模型而言,集成学习的特点
四、实验四:集成学习二
4.1 简单介绍
简单介绍 GBDT 和 XGBoost 算法的原理。
4.2 Titanic 数据实验
- 对 Titanic 数据进行探索性分析
- 数据预处理:缺失值处理、哑变量处理、分箱操作等
- 特征工程:特征提取、特征生成等
- 以 Precision、Recall、F1 和 Auc 等指标为评价标准,利用网格搜索等方法找到合适的模型参数,探究并比较 AdaBoost、GBDT、XGBoost 和 Random Forest 集成算法的性能
五、实验五:贝叶斯学习算法实践
5.1 简单介绍
5.2 数据实验
六、实验六:聚类算法
6.1 简单介绍
简单介绍K-means、层次聚类,DBSCAN 和密度峰值聚类(DPC)算法的原理
6.2 鸢尾花数据实验
- 对鸢尾花数据集进行探索性分析与预处理
- 选取兰德系数和轮廓系数作为评价指标,对四种算法在该数据集上的性能进行分析
6.3 算法参数影响探究
- 介绍三种算法中的几个主要参数(K-Means 中的 k 参数、DBSCAN 中的 eps 与 min_samples 参数、DPC 中的 t0参数–t0 的含义为圆中样本个数占数据集总样本数的比例)
- 以鸢尾花数据为例,选取合适的评价指标,探究 K-Means 算法中 k 参数对算法的性能影响,并尝试找出确定 k 参数的方法
- 以模拟数据为例(如:高斯分布数据集,Spiral 数据集,Circle数据集),选取合适的评价指标,探究另外三个参数(eps 与min_samples、t0)对各自算法的性能影响
七、实验七:降维算法
7.1 简单介绍
简单介绍维数约简的概念和PCA、KPCA以及LLE算法的原理
7.2 模拟数据实验
- 模拟环形数据
- 利用PCA、KPCA和LLE算法分别对模拟数据进行处理,借助图形可视化,对比不同降维算法在环形数据上的效果
7.3 Breast cancer数据实验
- Breast Cancer数据探索性分析
- 分别用PCA、KPCA和LLE算法对Breast的特征进行降维
- 对降维后的数据进行可视化,并对降维处理后的数据和原始数据分别建立SVM模型,对比降维处理后模型性能的变化,理解降维对建模的意义