
机器学习
文章平均质量分 93
传统机器学习算法、统计机器学习算法理论
赵队
一个兴趣使然的非科班算法工程师
展开
-
xgboost 中的二阶导数为什么收敛更快?
面试中一直以来有个热门问题就是:「xgboost 二阶泰勒展开为什么收敛快?」一般来说网上的背诵答案为:「一阶导数可以找到当前最陡峭的方向,二阶导数可以掌握一阶导数未来的变化信息,等于说二阶导数有更长远的规划。」但这个答案未免太不优雅了,过于make sense了,缺少一些数学上的严谨性。下面这篇短文来记录一下最近针对这个问题的一些思考。...原创 2022-08-21 14:21:13 · 1139 阅读 · 1 评论 -
为什么逻辑回归(logistic)可以表示概率?
参考资料:The equivalence of logistic regression and maximum entropymodels从最大熵模型解释逻辑回归最大熵模型原理小结——刘建平1 前言早期的博客中写过一篇逻辑回归的介绍,这篇博文中对逻辑回归的“输入为何能代表概率“这个问题做了浅层的探讨,但碍于当年太过年轻,对问题理解不够深刻,这次回过头来把这个问题重新梳理一遍。这个问题还可以换种问法,那就是——逻辑回归sigmoid函数的形式到底是怎么来的。先说结论,逻辑回归的形式其实存在一个起源原创 2021-03-07 01:05:19 · 4331 阅读 · 0 评论 -
深入理解熵、交叉熵、KL散度、极大似然估计与最大后验估计
参考资料:【知乎】信息熵是什么?————YJanjo的回答熵和编码长度熵(Entropy),交叉熵(Cross-Entropy),KL-松散度(KL Divergence)前言交叉熵与KL散度是两个很相似的概念,极大似然估计与最大后概率验估计也经常被相互比较,交叉熵与极大似然估计更是有千丝万缕的联系。这篇文章就把这四个概念放在一起讲解,目的是从数学角度理清这四个概念的联系与区别。本文首先...原创 2020-02-16 01:30:55 · 3151 阅读 · 1 评论 -
XGBoost原论文阅读翻译
虽然之前转过一篇XGBoost的不错的文章,但那篇在很多细节部分做了省略,所以还是翻出原论文来精读一遍,顺带翻译一波。其中斜体字为我的观点,不是原文中的内容。愿论文:XGBoost: A Scalable Tree Boosting System————————————————————————————————————————————ABSTRACT提升树是一种高效且被广泛使用的机器学习方法...原创 2019-04-15 22:01:01 · 8529 阅读 · 8 评论 -
LightGBM原论文阅读翻译
我在学习lightGBM的时候苦于找不到质量高的学习资料,后来突然想起最好的资料难道不就是作者的原论文吗?所以本文主要是对lightGBM原论文的阅读翻译,一方面督促自己把论文精度一遍,一方面分享给有需要的朋友。参考资料:原文:LightGBM: A Highly Efficient Gradient Boosting Decision Tree———————————————————————...原创 2019-03-11 23:34:22 · 5045 阅读 · 0 评论 -
提升树/GBDT原理总结
参考资料:李航,《统计学习方法》刘建平博客,梯度提升树(GBDT)原理小结知乎,关于GBDT的几个不理解的地方?知乎,gbdt的残差为什么用负梯度代替?知乎,梯度提升树中为什么说目标函数关于当前模型的负梯度是残差的近似值?————————————————————————————————————————————之前说过Adaboost算法,Adaboost没有限制基学习器是什么。提升树...原创 2019-03-05 16:27:50 · 1320 阅读 · 0 评论 -
机器学习中防止过拟合的处理方法
本文转载自:一只鸟的天空,http://blog.youkuaiyun.com/heyongluoyao8/article/details/49429629crb_day_day_up, https://blog.youkuaiyun.com/m0_38045485/article/details/82147817————————————————————————————————————————————过拟合我们...转载 2019-03-04 12:13:03 · 1190 阅读 · 0 评论 -
评价指标/性能度量
本文参考:https://www.jianshu.com/p/9ee85fdad150https://blog.youkuaiyun.com/xyu66/article/details/80044991http://lidequan12345.blog.163.com/blog/static/28985036201303181045965/《机器学习》周志华评价指标指的就是用什么标准去评价你,评价对...原创 2019-03-03 20:59:04 · 1422 阅读 · 0 评论 -
Apriori算法原理总结
转自 博客园——刘建平Pinard原文地址:https://www.cnblogs.com/pinard/p/6293298.html————————————————————————————————————Apriori算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。比如在常见的超市购物数据集,或者电商的网购数据集中,如...转载 2018-12-10 19:47:42 · 3500 阅读 · 2 评论 -
AdaBoost数学原理
参考资料:《机器学习》周志华《统计学习方法》李航【知乎】adaboost为什么不容易过拟合呢?集成学习AdaBoost原理小结——刘建平————————————————————————————————————简介关于集成学习中的boosting和bagging我就不多说了,都是将弱学习器通过不同的集成方法变成强学习器的过程。而AdaBoost是Boosting算法中最著名的代表。A...原创 2018-12-05 12:16:14 · 1370 阅读 · 1 评论 -
主成分分析(PCA)
本文参考:《机器学习》周志华主成分分析(PCA)原理总结——刘建平有关Pca的使用:样本数目和降维数目的关系————————————————————————————————————主成分分析(Principal Component Analysis)简称PCA,是一种最常用的降维方法。从名字里就可以看出,它追求的是找到主成分,在低维度的情况下尽可能的代表原来的数据情况。从上图就可以看...原创 2018-11-14 21:14:14 · 1080 阅读 · 0 评论 -
XGBoost原理
这篇博客是我在学习XGBoost的过程中看到的最好的一篇博客,对于直接看陈天奇论文有压力的同学这篇博客绝对是最好的选择。我会在个人认为不好理解的地方加写自己的理解,其他说明部分在修改了一些原作者的笔误后搬运了过来。原文地址:http://djjowfy.com/2017/08/01/XGBoost的原理/————————————————————————————————————这篇博客的由来(...转载 2018-10-16 22:04:15 · 3514 阅读 · 2 评论 -
从极大似然估计到EM算法
EM(期望最大化算法)本来想自己写一篇关于EM算法的博客,但在学习过程中在知乎上看到了一篇质量非常高的文章,举例丰富又不脱离其数学本质,深入浅出又不省略其公式推导,故在征得原作者的同意后搬运至此与大家分享。Ok,let’s get it!作者:August原文链接:https://zhuanlan.zhihu.com/p/35698329估计有很多入门机器学习的同学在看到EM算法的...转载 2018-09-20 16:56:32 · 2241 阅读 · 0 评论 -
朴素贝叶斯
本文章参考: 周志华 《机器学习》 李航《统计学习方法》很多人谈朴素贝叶斯都喜欢从它每个属性独立的特点来入手,我更想写写朴素贝叶斯的来源,也就是说,为什么我们需要它假设每个属性独立。贝叶斯决策论贝叶斯决策论其实就是基于概率的一种决策方法,说白了核心原理就是我们概率论中学的贝叶斯公式。贝叶斯决策论的目的是最小化总体风险。我们面对一个分类问题,假设可能的类别有n种,针对一个...原创 2018-09-10 14:23:37 · 471 阅读 · 0 评论 -
逻辑斯蒂回归(Logistic Regression)
logistic回归logistic回归经常被人译为“逻辑回归“,虽然我个人认为貌似并没有什么关联,但下面就姑且这么叫吧。逻辑回归虽然是名字里带着回归,但其实是一种解决分类问题的算法,说到分类就有分几类的区别,本篇我们只讨论用于二分类问题的逻辑回归。基本的线性回归的形式为: y=ωTx+by=ωTx+by=\omega^{T}x+b 线性回归模型产生的预测值是一系列实值。为了使得输...原创 2018-08-12 13:54:22 · 45251 阅读 · 2 评论 -
正则化方法:L1和L2 regularization、数据集扩增、dropout
原文:http://blog.youkuaiyun.com/u012162613/article/details/44261657 本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。(本文会不断补充)正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者ov...转载 2018-08-03 19:42:15 · 385 阅读 · 0 评论 -
决策树
首先决策树是一种分类算法,长得像是一个根在上枝朝下的树。在介绍决策树之前首先介绍一下信息熵,这是决策树中一个非常重要的知识点。信息熵有些地方把信息熵叫做信息量,其实也能大致这样理解。信息量就是你知道一件事以后能得到的信息的多少,说白了是一种度量单位,然而得到信息的多少跟事件发生的概率有关系。最常举的例子,若有人告诉你,”太阳从东方升起从西方落下”,那你得到的信息量就为0,因为这件事...原创 2018-05-30 23:28:56 · 2090 阅读 · 0 评论 -
K近邻——KNN
KNN(emmmmm……..原计划要写的支持向量机,感觉内容有点多,先写个KNN过度一下吧,以后一定会补上的!)k近邻,简称kNN,全称k-Nearest Neighbor,是机器学习算法中最简单的算法之一。其基本原理是:根据与待测样本最近的k个邻居的标签来判断待测样本的标签,是一种监督学习方法。简单来说就是“物以类聚,人以群分”、“近朱者赤,近墨者黑”。这种算法严格来说甚至是不需要去...原创 2018-04-25 18:46:12 · 548 阅读 · 0 评论 -
SVM预备——拉格朗日对偶问题
拉格朗日对偶问题我在学习支持向量机的时候遇到了拉格朗日对偶问题,查资料了解后发现是个挺有意思的东西,于是乎打算把这个问题简要总结一下,为以后介绍支持向量机做知识储备。本文涉及到了拉格朗日乘子法,这个方法在本科高等数学中有介绍,没有了解过或忘了的朋友点击这里,这是百度百科的介绍,文中的图片已经很好的解释了这个问题。 ok,我们开始先观察一个优化问题: minf(x)minf(x)mi...原创 2018-04-18 21:28:12 · 785 阅读 · 1 评论