
机器学习算法原理
文章平均质量分 70
本专栏主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习和无监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。
优惠券已抵扣
余额抵扣
还需支付
¥99.90
¥299.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
AI算法攻城狮
互联网算法工程师,拥有扎实的理论基础和丰富的算法落地实践经验
展开
-
Xgboost原理精读
XGBoost(eXtreme Gradient Boosting)是一种梯度提升(Gradient Boosting)算法,用于监督学习。它是由Google Brain团队开发的一种优化的分布式梯度提升框架。原创 2019-08-15 21:01:48 · 1196 阅读 · 1 评论 -
机器学习 | LR逻辑回归模型
LR假设数据服从伯努利分布,利用线性回归模型配合Sigmod函数构造逻辑回归公式,运用梯度下降的方法来求解损失函数,极大化似然函数,最终解决二分类问题。主要思想: 根据现有数据对分类边界线(Decision Boundary)建立回归公式,通过寻找最优参数来正确地分类原始数据。数学目的:求解能够让模型对数据拟合程度最高的参数的值,从此构建预测函数y(x),然后将特征矩阵输入预测函数来计算出逻辑回归的结果y。把原线性回归的取值范围通过Logistic函数映射到一个概率空间,从而将一个回归模型转换为一个分类原创 2018-08-12 16:57:59 · 2139 阅读 · 1 评论 -
机器学习算法原理专栏目录
机器学习十大算法https://xingqijiang.blog.youkuaiyun.com/article/details/82426626机器学习 | LR逻辑回归模型https://xingqijiang.blog.youkuaiyun.com/article/details/81607994LR 特征离散化https://xingqijiang.blog.youkuaiyun.com/article/details/81607994漫画:逻辑回归https://xingqijiang.blog.csdn.原创 2021-05-03 12:40:46 · 1129 阅读 · 8 评论 -
L0、L1、L2范数在机器学习中的应用
正则化在机器学习中经常出现,但是我们常常知其然不知其所以然,今天将从正则化对模型的限制、正则化与贝叶斯先验的关系和结构风险最小化三个角度出发,谈谈L1、L2范数被使用作正则化项的原因。 首先我们先从数学的角度出发,看看L0、L1、L2范数的定义,然后再分别从三个方面展开介绍。L0范数指向量中非零元素的个数L1范数:向量中每个元素绝对值的和 L2范数:向量元素绝对值的平方和再开平方应用一:约束模型的特性1.1 L2正则化——让模型变得简单例如我们给下图的点建立一个模型:原创 2020-06-20 15:11:00 · 1706 阅读 · 0 评论 -
xgb参数详解
参数用于定义学习任务及相应的学习目标。这个参数决定了模型要执行的具体任务类型,例如回归、分类等,以及这些任务的具体形式。这些选项允许用户根据具体的应用场景选择合适的目标函数,以优化模型的学习过程和预测结果。GBoost模型中的。原创 2024-08-12 11:11:19 · 286 阅读 · 0 评论 -
Gini Impurity(基尼不纯度)
基尼不纯度:衡量集合的无序程度,有放回抽样两次,两次样本标签不同的概率。原创 2024-05-15 17:14:28 · 225 阅读 · 0 评论 -
聚类与分类的区别
聚类和分类是机器学习中的两个基本概念,两者的主要区别在于用于分类的数据已经预先标记好类别,而用于聚类的数据则没有预先标记的类别。原创 2024-04-22 14:15:53 · 2635 阅读 · 0 评论 -
肘方法 Elbow of SSE vs 轮廓系数 Silhouette Coefficient
在聚类算法中,特别是K均值聚类,使用SSE(Sum of Squared Errors)来寻找最优的K值是一种常见的方法。SSE是指每个点到其最近的聚类中心的距离的平方和。当选择不同数量的聚类时,SSE通常会随着聚类数量的增加而减少,因为更多的聚类意味着每个聚类中的点更接近其中心。使用轮廓系数(Silhouette Coefficient)来确定聚类算法中最优的K值是一种评估聚类性能的方法。轮廓系数是一个有效的工具,可以帮助评估不同K值下聚类的质量,但最终的选择应根据具体的数据特性和业务需求综合考虑。原创 2024-03-27 18:01:03 · 476 阅读 · 0 评论 -
机器学习编码分类特征编码LabelEncoder与OneHotEncoder
LabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。其中包含以下常用方法:fit(y) :fit可看做一本空字典,y可看作要塞到字典中的词。fit_transform(y):相当于先进行fit再进行transform,即把y塞到字典中去以后再进行transform得到索引值。inverse_transform(y):根据索引值y获得原始数据。transform(y) :将y转变成索引值。原创 2022-12-20 18:25:05 · 885 阅读 · 1 评论 -
算法工程师必会知识点思维导图
算法工程师必会知识点思维导图原创 2022-12-18 12:29:58 · 289 阅读 · 0 评论 -
XGBoost算法原理小结
在两年半之前作过梯度提升树(GBDT)原理小结,但是对GBDT的算法库XGBoost没有单独拿出来分析。虽然XGBoost是GBDT的一种高效实现,但是里面也加入了很多独有的思路和方法,值得单独讲一讲。因此讨论的时候,我会重点分析和GBDT不同的地方。本文主要参考了XGBoost的论文和陈天奇的PPT。1. 从GBDT到XGBoost作为GBDT的高效实现,XGBoost是一个上限特别...原创 2019-12-12 18:13:44 · 2347 阅读 · 1 评论 -
XGBoost类库使用小结
在XGBoost算法原理小结中,我们讨论了XGBoost的算法原理,这一片我们讨论如何使用XGBoost的Python类库,以及一些重要参数的意义和调参思路。本文主要参考了XGBoost的Python文档和XGBoost的参数文档。1. XGBoost类库概述XGBoost除了支持Python外,也支持R,Java等语言。本文关注于Python的XGBoost类库,安装使用"pip...原创 2019-12-05 12:25:35 · 1905 阅读 · 1 评论 -
机器学习:SGD随机梯度下降法
1.梯度下降 1)什么是梯度下降? 因为梯度下降是一种思想,没有严格的定义,所以用一个比喻来解释什么是梯度下降。 简单来说,梯度下降就是从山顶找一条最短的路走到山脚最低的地方。但是因为选择方向的原因,我们找到的的最低点可能不是真正的最低点。如图所示,黑线标注的路线所指的方向并不是真正的地方。 既然是选择一个方向下山,那么这个方向怎么选?每次该怎么走? 先说选方向,在算法中是以随机方式给出的,这也是造成有时候走...原创 2021-11-07 09:21:48 · 1441 阅读 · 0 评论 -
深入浅出Ensemble Learning集成学习原理
集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。本文就对集成学习的原理做一个总结。1. 集成学习概述 从下图,我们可以对集成学习的思想做一个概括。对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终原创 2021-10-09 17:03:49 · 501 阅读 · 0 评论 -
机器学习中的距离计算方法
设空间中两个点为(x1,y1)(x2,y2)欧式距离:曼哈顿距离:余弦距离:cos=切比雪夫距离:max原创 2021-11-06 22:13:16 · 1617 阅读 · 0 评论 -
集成学习Bagging和Boosting的区别
Baggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。Bagging:先介绍Bagging方法:Bagging即套袋法,其算法过程如下: 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集之间是相互独立的) 每次使用一个训练集得到一个模型原创 2021-08-28 20:39:40 · 388 阅读 · 0 评论 -
如何理解皮尔逊相关系数(Pearson Correlation Coefficient)
先说结论:皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进, 皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进, 皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进.如果参加过高考, 那么肯定会这么一个公式:cos<a, b> = a • b / |a|•|b|假设a = (3, 1, 0), b = (2, -1, 2)分子是a, b两个向量的内积, (3, 1, 0) • (2, -1, 2) = 3•2 + 1•(-1) + 0•2 =...原创 2020-08-11 10:54:54 · 4509 阅读 · 0 评论 -
风控模型—WOE与IV指标的深入理解应用
风控业务背景在评分卡建模流程中,WOE(Weight of Evidence)常用于特征变换,IV(Information Value)则用来衡量特征的预测能力。风控建模同学可能都很熟悉这两者的应用,但我们仍然可能疑惑诸如“如何调整WOE分箱?“、“WOE与LR之间的关系?”这些问题。很多文章都已经讨论过这一命题,本文吸取归纳了前人的优秀成果,以期对WOE和IV给出一套相对完整的理论解释。主要创新点在于: 用图表可视化展示WOE和IV指标的计算过程和业务含义,适用于快速入门实践的读者。转载 2021-07-25 15:42:11 · 2183 阅读 · 0 评论 -
机器学习理论基础 | 最大似然函数
概率函数 vs 似然函数 :p(x|θ) (概率函数是θ,已知,求x的概率。似然函数是x已知,求θ)例如,对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少;而对于“一枚硬币上抛十次”,我们则可以问,这枚硬币正反面对称的“似然”程度是多少。.........原创 2021-08-02 06:09:14 · 658 阅读 · 0 评论 -
机器学习理论基础 | 极大似然估计
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。可能有小伙伴就要说了,还是有点抽象呀。我们这样想,一当模型满足某个分布,它的参数值我通过极大似然估计法求出来的话。比如正态分布中公式如下:如果我通过极大似然估计,得到模型中参数和的值,那么这个模型的均值和方差以及其它所有的信息我们是不是就知道了呢。确实是这样的。极大似然估计中采样需原创 2021-07-03 23:48:15 · 500 阅读 · 2 评论 -
如何简单理解贝叶斯决策理论(Bayes Decision Theory)
贝叶斯的底层思想就是:如果我能掌握一个事情的全部信息,我当然能计算出一个客观概率(古典概率)。可是生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。也就是,在主观判断的基础上,你可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。原创 2021-07-31 09:22:54 · 1833 阅读 · 0 评论 -
漫画:逻辑回归
本节我们会以生动有趣的漫画来介绍关于机器学习中机器进行数据分类的方法。Dr.Wu: 小鱼同学在举手,你有问题吗?在实际问题中,我们不仅需要得出具体的预测数值,我们还需要将数据的类别进行判断和分类。我们拿小鱼同学的美食:小虾和小泥鳅进行二分类(X(小虾),N(泥鳅)),需要找到一个函数,输入数据,输出是判断数据是小虾还是小泥鳅的概率。如上图,...原创 2020-01-02 16:29:59 · 3473 阅读 · 0 评论 -
机器学习 | LR公式
逻辑回归本质上是线性回归,只是在特征到结果的映射中加入了一层逻辑函数g(z),即先把特征线性求和,然后使用函数g(z)作为假设函数来预测。g(z)可以将连续值映射到0 和1。g(z)为sigmoid function.则sigmoid function 的导数如下:逻辑回归用来分类0/1 问题,也就是预测结果属于0 或者1 的二值分类问题。这里假设了二值满足伯努利分布,也就是其也可以写成如下的形式:对于训练数据集,特征数据x={x1, x2, … , xm}和对应的分原创 2021-05-10 20:00:33 · 853 阅读 · 3 评论 -
机器学习 | LR的推导,损失函数
逻辑回归本质上是线性回归,只是在特征到结果的映射中加入了一层逻辑函数g(z),即先把特征线性求和,然后使用函数g(z)作为假设函数来预测。g(z)可以将连续值映射到0 和1。g(z)为sigmoid function.则sigmoid function 的导数如下:逻辑回归用来分类0/1 问题,也就是预测结果属于0 或者1 的二值分类问题。这里假设了二值满足伯努利分布,也就是其也可以写成如下的形式:对于训练数据集,特征数据x={x1, x2, … , xm}和对应的分原创 2021-05-11 09:58:52 · 593 阅读 · 3 评论 -
机器学习 | Logistic Regression(逻辑回归)中的损失函数
问题:线性回归中,当我们有m个样本的时候,我们用的是损失函数是但是,到了逻辑回归中,损失函数一下子变成那么,逻辑回归的损失函数为什么是这个呢?本文目录1. 前置数学知识:最大似然估计1.1 似然函数1.2 最大似然估计2. 逻辑回归损失函数理解2.1 逻辑回归前置知识2.2 理解方式1(ML课程的讲解方式)2.3 理解方式21. 前置数学知识:最大似然估计1.1 似然函数若总体属离散型,其分布律, 的形式已知,为待估参数,是的可能取值范围。设.原创 2021-05-03 23:27:36 · 764 阅读 · 1 评论 -
机器学习 | 为什么LR模型损失函数使用交叉熵不用均方差?
如果使用均方差作为损失函数所以,如果当前模型的输出接近0或者1时,σ′(z)就会非常小,接近0,使得求得的梯度很小,损失函数收敛的很慢。如果使用交叉熵作为损失函数原创 2021-07-04 22:15:21 · 745 阅读 · 1 评论 -
机器学习 | LR 特征离散化
LR模型介绍:https://xingqijiang.blog.youkuaiyun.com/article/details/81607994在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:(1)离散特征的增加和减少都很容易,易于模型的快速迭代;(2)稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;(...原创 2019-08-23 20:10:12 · 998 阅读 · 0 评论 -
机器学习 | 逻辑回归如何实现多分类
若所有类别之间有明显的互斥则使用softmax分类器,若所有类别不互斥有交叉的情况则构造相应类别个数的逻辑回归分类器。原创 2021-05-11 10:01:52 · 3250 阅读 · 4 评论 -
机器学习 | 交叉熵公式
交叉熵:设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是:在一定程度上,相对熵可以度量两个随机变量的“距离”,且有D(p||q) ≠D(q||p)。另外,值得一提的是,D(p||q)是必然大于等于0的。互信息:两个随机变量X,Y的互信息定义为X,Y的联合分布和各自独立分布乘积的相对熵,用I(X,Y)表示:且有I(X,Y)=D(P(X,Y)||P(X)P(Y))。下面,咱们来计算下H(Y)-I(X,Y)的结果,如下:...原创 2021-05-10 20:02:58 · 2546 阅读 · 2 评论 -
交叉熵和对数损失函数之间的关系
交叉熵熵/信息熵假设一个发送者想传输一个随机变量的值给接收者。这个过程中,他们传输的平均信息量为:叫随机变量的熵,其中把熵扩展到连续变量的概率分布,则熵变为被称为微分熵。在离散分布下,最大熵对应于变量的所有可能状态的均匀分布。最大化微分熵的分布是高斯分布相对熵/KL散度考虑某个未知分布,假设我们使用一个近似分布对其进行建模。如果我们使用来建立一个编码体系,用来把传递给接收者,由于我们使用了而不是真实分布,因此在具体化时,我们需要一些附加信息。我们需要的附加信息原创 2021-07-18 23:21:44 · 496 阅读 · 0 评论 -
机器学习之Softmax回归模型
Softmax在机器学习中有非常广泛的应用,但是刚刚接触机器学习的人可能对Softmax的特点以及好处并不理解,其实你了解了以后就会发现,Softmax计算简单,效果显著,非常好用。我们先来直观看一下,Softmax究竟是什么意思我们知道max,假如说我有两个数,a和b,并且a>b,如果取max,那么就直接取a,没有第二种可能但有的时候我不想这样,因为这样会造成分值小的那个饥饿。所以我希望分...原创 2018-03-04 17:59:15 · 10830 阅读 · 1 评论 -
机器学习 | 决策树模型
决策树通过生成决策规则来解决分类和回归问题。整个模型非常容易理解,是所谓的白盒模型。但是由于决策树在理论上能无限制地划分节点前剪枝:在划分节点之前限制决策树的复杂度,通过一些阈值来限制决策树的生长,比如max_depth、min_sample_split等参数。后剪枝:在决策树构建完成之后,通过剪枝集修改树的结构,降低它的复杂度。这两种方法相比,前剪枝的实现更加容易,也更加可控,因......原创 2018-09-24 15:39:38 · 781 阅读 · 0 评论 -
机器学习 | 决策树ID3算法
ID3是Quinlan于1979年提出的,是机器学习中一种广为人知的一个算法,它的提出开创了决策树算法的先河,而且是国际上最早最有影响的决策树方法首先找出最有判断力的特征,把数据分成多个子集,每个子集又选择最有判断力的特征进行划分,一直进行到所有的子集包含同一类型的数据为止,最后得到一棵决策树。一、ID3算法的基本步骤1)创建一个节点。如果样本都在同一类,则算法停止,把该节点改成树叶节点,并用该类标记。2)否则,选择一个能够最好的将训练集分类的属性,该属性作为该节点的测试属性。3)对测试原创 2021-05-03 11:10:40 · 6497 阅读 · 1 评论 -
机器学习 | 决策树 (sklearn) 官方文档
Decision Trees (DTs) 是一种用来分类和回归的无参监督学习方法。其目的是创建一种模型从数据特征中学习简单的决策规则来预测一个目标变量的值。例如,在下面的图片中,决策树通过if-then-else的决策规则来学习数据从而估测数一个正弦图像。决策树越深入,决策规则就越复杂并且对数据的拟合越好。决策树的优势: 便于理解和解释。树的结构可以可视化出来。 训练需要的数据少。其他机器学习模型通常需要数据规范化,比如构建虚拟变量和移除缺失值,不过请注意,这..原创 2021-05-16 19:17:07 · 7392 阅读 · 6 评论 -
机器学习算法中 GBDT 和 XGBOOST 的区别有哪些?
算法层面1.XGB加了正则项,普通GBDT没有。防止过拟合。T为叶子节点的数量,W为叶子的权重。Y帽子 为预测值,Y为目标值。gamma ,delta 为参数2.xgboost损失函数是误差部分是二阶泰勒展开,GBDT 是一阶泰勒展开。所以损失函数定义的更精确。3.对每颗子树增加一个参数,使得每颗子树的权重降低,防止过拟合,增加这个参数叫shrinkage方法。对特征进行降采样,灵感来源于随机森林,除了能降低计算量外,还能防止过拟合。4.实现了利用分捅/分位数..原创 2021-05-10 12:42:10 · 1358 阅读 · 0 评论 -
机器学习 | GBDT梯度提升决策树
1.简介 gbdt全称梯度提升决策树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了,导致在面试的时候大家也非常喜欢问这个算法。 gbdt 的算法的流程? gbdt 如何选择特征 ? gbdt 如何构建特征 ? gbdt 如何用于分类? gbdt..原创 2021-07-18 22:31:58 · 430 阅读 · 0 评论 -
随机森林RF与GBDT之间的区别
相同点都是由多棵树组成 最终的结果都是由多棵树一起决定不同点组成随机森林的树可以分类树也可以是回归树,而GBDT只由回归树组成 组成随机森林的树可以并行生成,而GBDT是串行生成 随机森林的结果是多数表决表决的,而GBDT则是多棵树累加之和 随机森林对异常值不敏感,而GBDT对异常值比较敏感 随机森林是通过减少模型的方差来提高性能,而GBDT是减少模型的偏差来提高性能的 随机森林不需要进行数据预处理,即特征归一化。而GBDT则需要进行特征归一化分类树和回归树的区别(1)分类树使用原创 2021-07-21 22:32:44 · 781 阅读 · 0 评论 -
机器学习 | GBDT算法原理
GBDT的全称是Gradient Boosting Decision Tree,梯度提升树,在传统机器学习算法中,GBDT算的上TOP3的算法。想要理解GBDT的真正意义,那就必须理解GBDT中的Gradient Boosting和Decision Tree分别是什么?原创 2021-05-03 16:16:41 · 576 阅读 · 1 评论 -
GBDT打破砂锅问到底
1. 怎样设置单棵树的停止生长条件?答:A. 节点分裂时的最小样本数B. 最大深度C. 最多叶子节点数D. loss满足约束条件2. 如何评估特征的权重大小?答:a. 通过计算每个特征在训练集下的信息增益,最后计算每个特征信息增益与所有特征信息增益之和的比例为权重值。b. 借鉴投票机制。用相同的gbdt参数对w每个特征训练出一个模型,然后在该模型下计算每个特征正确分类的个数,最后计算每个特征正确分类的个数与所有正确分类个数之和的比例为权重值。3. 如何人工去干预某列特征的权原创 2018-09-05 17:03:13 · 835 阅读 · 0 评论 -
论文解读 Greedy Function Approximation:A Gradient Boosting Machine
AbstractFunction approximation是从function space方面进行numerical optimization,其将stagewise additive expansions和steepest-descent minimization结合起来。而由此而来的Gradient Boosting Decision Tree(GBDT)可以适用于regression和classification,都具有完整的,鲁棒性高,解释性好的优点。1. Function estimat原创 2021-07-13 22:51:09 · 1203 阅读 · 0 评论