
机器学习理论学习
文章平均质量分 69
韩立 •
这个作者很懒,什么都没留下…
展开
-
机器学习之逻辑回归算法以及Python实例分析
n第二种是样本是高度失衡的,比如我们有合法用户和非法用户的二元样本数据10000条,里面合法用户有9995条,非法用户只有5条,如果我们不考虑权重,则我们可以将所有的测试集都预测为合法用户,这样预测准确率理论上有99.95%,但是却没有任何意义。如果模型有T类,我们每次在所有的T类样本里面选择两类样本出来,不妨记为T1类和T2类,把所有的输出为T1和T2的样本放在一起,把T1作为正例,T2作为负例,进行二元逻辑回归,得到模型参数。就是不输出训练过程,1的时候偶尔输出结果,大于1,对于每个子模型都输出。原创 2022-10-09 00:57:52 · 1066 阅读 · 0 评论 -
机器学习算法之线性回归及其sklearn实例
3:采用二次多项式拟合(原理见本人博客应用统计学) (pipeline封装注释里有说明解释)并查看R2分数。注:以上案例只是测试了一元回归在训练集上的线性回归效果以及多项式回归效果,其中用到了管道封装原理。注:至于为什么误差满足高斯分布这是数学家的问题,作为技术人员,只要知道会用即可。6:评价模型拟合好不好的方法:R平方:其实就是相关系数的平方:取值在0到1之间。注:1:梯度概念:对各个自变量的偏导数构建出的在某点单位向量。5:目标函数求最小值:采用梯度下降法求解。2.1:可视化拟合效果:结论:效果很差。原创 2022-10-06 20:04:38 · 1134 阅读 · 0 评论 -
机器学习之验证曲线绘制-调参可视化-sklearn
需要注意的是如果我们使用验证分数来优化超参数,那么该验证分数是有偏差的,它无法再代表模型的泛化能力,我们就需要使用其他测试集来重新评估模型的泛化能力。验证曲线和学习曲线的区别是,横轴为某个超参数的一系列值,由此来看不同参数设置下模型的准确率(评价标准),而不是不同训练集大小下的准确率。从验证曲线上可以看到随着超参数设置的改变,模型可能从欠拟合到合适再到过拟合的过程,进而选择一个合适的设置,来提高模型的性能。train_scores:如上图:num列k行的训练集评价分数。scoring:评价方式。原创 2022-10-04 16:27:55 · 1852 阅读 · 0 评论 -
机器学习之网格搜索调参sklearn
而是通过选择每一个超参数的一个随机值的特定数量的随机组合,这个方法有两个优点:相比于整体参数空间,可以选择相对较少的参数组合数量。RandomizedSearchCV的使用方法其实是和GridSearchCV一致的,但它以随机在参数空间中采样的方式代替了GridSearchCV对于参数的网格搜索,在对于有连续变量的参数时,RandomizedSearchCV会将其当做一个分布进行采样进行这是网格搜索做不到的,它的搜索能力取决于设定的n_iter参数。所以有人就提出了随机搜索的方法,原创 2022-10-04 16:08:23 · 1805 阅读 · 0 评论 -
机器学习之学习曲线绘制Python-skleran
train_scores:如上为numpy数组,第一行五个数据为抽取原始训练集10%的数据做的五折交叉验证的训练集指标。,第二行五个数据为抽取原始训练集25%的数据做的五折交叉验证的训练集指标。test_scores:如上为numpy数组,第一行五个数据为抽取原始训练集10%的数据做的五折交叉验证的验证集指标。,第二行五个数据为抽取原始训练集25%的数据做的五折交叉验证的验证集指标。train_sizes: 随着训练集的增大,选择在10%,25%,50%,75%,100%的训练集大小上进行采样。原创 2022-10-04 13:26:02 · 5382 阅读 · 2 评论 -
机器学习之交叉验证汇总及其Python代码
总结思想:进行交叉验证目的是为了充分利用训练数据,最大程度利用训练数据,以获得一个较好的模型,防止模型欠拟合或者过拟合。交叉验证是什么?在模型建立中,通常有两个数据集:训练集(train)和测试集(test)。训练集用来训练模型;测试集是完全不参与训练的数据,仅仅用来观测测试效果的数据。一般情况下,训练的结果对于训练集的拟合程度通常还是挺好的,但是在测试集总的表现却可能不行。比如下面的例子:图一的模型是一条线型方程。原创 2022-09-29 12:02:29 · 4804 阅读 · 0 评论 -
一元线性回归模型及其Python案例
在线性回归中,根据特征变量(也称自变量)来预测反应变量(也称因变量)。根据特征变量的个数可将线性回归模型分为一元线性回归和多元线性回归。例如,通过“人均可制配收入”这一个特征变量来预测“人均消费支出”,就属于一元线性回归;而通过“人均可制配收入”“行业”“所在城市”等多个特征变量来预测“薪水”,就属于多元线性回归。 薪水会随着工龄的增长而增长,不同行业的薪水增长速度有所不同。本案例要应用一元线性回归模型探寻工龄对薪水的影响,即搭建薪水预测模型。 模型优化一元多次线性回归模型原创 2022-09-26 11:18:07 · 4697 阅读 · 0 评论 -
机器学习傻瓜书决策树之信息熵和信息增益 增益率理解
先给出结论:利用信息增益的目的是为了生成最优决策树,方便在测试集预测首先给出书上信息熵的数学定义:举一个通俗例子理解这个公式 接下来理解信息增益书上公式 光看公式很难理解 但是其实并没有新的数学概念知识(理解公式的目的是获取其现实意义和其现实逻辑)先给出结论:信息增益其实就是系统经过特征选择后(比如该例选择色泽为特征),过度为下个子系统,子系统与上一个系统的信息熵差值的一个量度,当然越大,说明系统不确定性坍缩的越厉害,这正是我们想要的。毕竟信息熵坍缩为0,就能确定做出抉择了。类比:速度,速度差,加速度对原创 2022-06-26 05:28:11 · 726 阅读 · 0 评论 -
决策树之基尼指数理解
基尼指数和信息熵都是用来描述系统混乱度的量 数学形式不一样,干的事是一样的不纯度(impurity)--GINI系数:(不纯度就是混乱度) 公式 例子(与信息熵干的是一件事) 决策树模型理解二、决策树的学习(训练)过程一棵决策树的生成过程主要分为以下3个部分:特征选择:特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准标准,从而衍生出不同的决策树算法。决策树生成: 根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止原创 2022-06-27 03:24:27 · 4708 阅读 · 0 评论