基本机器学习算法相关重要参数:
模型=算法+数据
一、分类算法:
1、数据特点:
要求数据的目标值离散
2、分类及重要参数
K近邻算法:
根据样本与样本的欧式距离计算,n_neighbors需要进行交叉验证和网格搜索,可以通过estimator.scolar()函数验证模型的准确性
朴素贝叶斯算法:
会计算先验概率,要求历史数据严谨,没有可调参数
决策树和随机森林:
通过信息熵和信息增益计算根节点(更详细的是根据基尼系数),其中决策树中的min_samples_split=2(默认),min_samples_leaf=1(默认),随机森林(n_estimator#决策树的数量,max_depth#决策树的深度)这些参数可以通过交叉验证和网格搜索进行优化模型。可以通过estimator.scolar()函数验证模型的准确性。
3、回归及重要参数
线性回归:
判断是否准确主要通过误差平方和(最小二乘法),优化可以通过正规方程(<10万样本)、梯度下降(>10万样本)进行优化,性能评估是均方误差:mean_squared_error__
正则化–岭回归:
线性回归容易出现过拟合问题,需要正则化,例如:岭回归。,其中岭回归参数(正则化力度:α)可以通过超参数进行摸索最佳的值。性能评估是均方误差: mean_squared_error__
逻辑化回归:特殊的回归算法:则身存在正则化参数,正则化力度(默认值)
可以通过estimator.scolar()函数验证模型的准确性。还可以通过召回率进行评估
4、K-mean:非监督学习
主要是通过样本特征对样本进行分类,其中n_cluster是人为设定的参数,可以通过轮廓系数(silhouette_score)进行评估,一般接近1,分类效果显著