
机器学习
机器学习学习记录
lyc0424
这个作者很懒,什么都没留下…
展开
-
单层决策树
单层决策树(decision stump)是一种简单的决策树,它仅仅是基于单个特征来做决策,由于这棵树只有一次分裂过程,因此它实际上仅仅是一个树桩。例如对下面一幅图进行分类:这里的数据分别是(1,2.1),(2,1.1),(1.3,1),(1,1),(2,1)这里要将圈和框分开:1、按照横坐标or纵坐标来划分,这里将横坐标视为特征一,纵坐标视为特征二(单决策树只能根据一个特征来做决策);...转载 2020-04-30 22:11:27 · 1755 阅读 · 0 评论 -
深度森林:常见Warning及解决方案
本人最近使用周志华的深度森林算法去解决一些问题,于是在github上下载了官方的Gcforest程序,下载地址:https://github.com/kingfengji/gcForest运行之后发现了一些Warning,有时会导致程序无法运行,下面给出两种常见的Warning和解决方案。1. FutureWarning(1)FutureWarning: Default solver...转载 2020-04-30 22:02:18 · 866 阅读 · 0 评论 -
Python Sklearn train_test_split 随机划分训练集和测试集
sklearn.model_selection.train_test_split随机划分训练集和测试集可以点击官方文档查看一般形式:train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和testdata,形式为:X_train,X_test, y_train, y_test =cross_validation.train_...转载 2020-04-30 19:51:40 · 1830 阅读 · 0 评论 -
拉格朗日对偶问题(Lagrange duality)
https://blog.youkuaiyun.com/blackyuanc/article/details/67640844转载 2020-04-15 09:43:55 · 502 阅读 · 0 评论 -
机器学习笔记:过拟合问题
过拟合问题如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(代价函数可能几乎为 0),但是可能会不能推广到新的数据。下图是一个回归问题的例子:第一个模型是一个线性模型,低度拟合,不能很好地适应我们的训练集;第三个模型是一个四次方的模型,过度拟合,虽然能非常好地适应我们的训练集但在新输入变量进行预测时可能会效果不好;而中间的模型似乎最合适。分类问题中也存在这样的...转载 2020-03-12 17:25:21 · 335 阅读 · 0 评论 -
机器学习--牛顿方法
牛顿法牛顿法是为了求解函数值为零的时候变量的取值问题的,具体地,当要求解 f(θ)=0时,如果 f可导,那么可以通过迭代公式。当θ是向量时,牛顿法可以使用下面式子表示:其中H叫做海森矩阵,H (-1) 表示的是海森矩阵的逆矩阵 ,其实就是目标函数对参数θ的二阶导数。牛顿法的优点:牛顿法收敛速度相比梯度下降法很快,而且由于海森矩阵的的逆在迭代中不断减小,起到逐渐...转载 2020-03-10 17:58:22 · 522 阅读 · 0 评论 -
信息熵、信息增益与信息增益率
信息熵、信息增益与信息增益率信息熵(Information Entropy)信息熵是用来评估样本集合的纯度的一个参数,就是说,给出一个样本集合,这个样本集合中的样本可能属于好多不同的类别,也可能只属于一个类别,那么如果属于好多不同的类别的话,我们就说这个样本是不纯的,如果只属于一个类别,那么,我们就说这个样本是纯洁的。 而信息熵这个东西就是来计算一个样本集合中的数据是纯洁的还是不纯洁的...转载 2020-03-08 15:32:11 · 867 阅读 · 0 评论 -
机器学习笔记:梯度下降
梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数 J(θ0,θ1)的最小值。梯度下降背后的思想是:开始时我们随机选择一个参数的组合( θ0,θ1,...,θn),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。 我们持续这么做直到到到一个局部最小值( local minimum) ,因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小...原创 2020-03-04 19:51:44 · 320 阅读 · 0 评论 -
准确率与召回率
1、两个最常见的衡量指标是“准确率(precision)”(你给出的结果有多少是正确的)和“召回率(recall)”(正确的结果有多少被你给出了)这两个通常是此消彼长的(trade off),很难兼得。很多时候用参数来控制,通过修改参数则能得出一个准确率和召回率的曲线(ROC),这条曲线与x和y轴围成的面积就是AUC(ROCArea)。AUC可以综合衡量一个预测模型的好坏,这一...转载 2020-02-25 20:28:15 · 479 阅读 · 0 评论 -
机器学习周志华--没有免费的午餐定理
没有免费的午餐定理(No Free Lunch Theorem),这个定理说明若学习算法LaL_aLa 在***某些问题***上比学习算法LbL_bLb 要好,那么必然存在***另一些问题***,在这些问题中LbL_bLb 比LaL_aLa 表现更好。这里说的表现好就是前面所说的泛化能力更强。然后出现了下面...转载 2020-02-25 20:27:06 · 410 阅读 · 0 评论 -
机器学习中的奥卡姆剃刀定律
奥卡姆剃刀定律是机器学习选择算法时可参照的标准之一。其含义是:在其他条件一样的情况下,选择简单的那个。该定律的意义在于数据的拟合和低复杂性之间实际上存在着折衷。理论上假设的解决方案越复杂,就越能拟合数据,训练数据误差就会越低图1但是在现实生活中,有关未知数据的泛化误差,往往如图2所示。图2泛化数据误差实际是训练数据误差与另一个名为过拟合误差的函数之和。...转载 2020-02-25 17:39:05 · 1169 阅读 · 0 评论 -
机器学习算法中的准确率(Precision)、召回率(Recall)、F值(F-Measure)
摘要: 数据挖掘、机器学习和推荐系统中的评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)简介。引言: 在机器学习、数据挖掘、推荐系统完成建模之后,需要对模型的效果做评价。业内目前常常采用的评价指标有准确率(Precision)、召回率(Recall)、F值(F-Measure)等,下图是不同机器学习算法的评价指标。下文讲对其中某些指标做...转载 2020-02-25 17:20:15 · 388 阅读 · 0 评论