机器学习
文章平均质量分 79
机器学习常用算法及应用总结
端坐的小王子
没什么难的,学就是了
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
推荐排序模型2—— wide&Deep及python(DeepCTR)实现
wide&Deep模型重点指出了Memorization和Generalization的概念,这个是从人类的认知学习过程中演化来的。人类的大脑很复杂,它可以记忆(memorize)下每天发生的事情(麻雀可以飞,鸽子可以飞)然后泛化(generalize)这些知识到之前没有看到过的东西(有翅膀的动物都能飞)。但是泛化的规则有时候不是特别的准,有时候会出错(有翅膀的动物都能飞吗)。那怎么办那,没关系,记忆(memorization)可以修正泛化的规则(generalized rules),叫做特例(企鹅原创 2020-06-24 16:34:09 · 2559 阅读 · 0 评论 -
推荐排序模型4—— Deep&Cross Network(DCN)及python(DeepCTR)实现
DCN全称Deep & Cross Network,是谷歌和斯坦福大学在2017年提出的用于Ad Click Prediction的模型。DCN(Deep Cross Network)在学习特定阶数组合特征的时候效率非常高,而且同样不需要特征工程,引入的额外的复杂度也是微乎其微的。目录1,DCN的基本结构和特点2,Embedding and Stacking Layer3, Cross Network1,DCN的基本结构和特点使用cross network,在每一层都应用feature c原创 2020-06-24 14:57:16 · 2398 阅读 · 1 评论 -
推荐排序模型3——DeepFM及python(DeepCTR)实现
CTR(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数除以广告的展现量。CTR是衡量互联网广告效果的一项重要指标。CTR预估数据特点:1)输入中包含类别型和连续型数据。类别型数据需要one-hot,连续型数据可以先离散化再one-hot,也可2)以直接保留原值3)维度非常高4)数据非常稀疏5)特征按照Field分组CTR预估重点在于学习组合特征。注意,组合特征包括原创 2020-06-23 20:30:07 · 7525 阅读 · 1 评论 -
推荐排序模型1——FM、FFM及python(xlearn)实现
排序模型在工业界已经有了很长时间的历史,从基于策略规则的人工指定特征权值开始,发展到LR线性模型,LR+GBDT半自动特征组合模型,再到FM自动二阶特征组合模型及深度学习模型等不断发展。其中FM系列模型占据比较重要的位置,本篇文章就FM模型进行分析和总结。目录1,概述2,FM模型1,概述在机器学习中,预测是一项基本的任务,所谓预测就是估计一个函数,该函数将一个n维的特征向量x映射到一个目标域T:D={(x(1),y(1)),(x(2),y(2)),...,(x(N),y(N))}D =\{(x^{原创 2020-06-22 18:22:26 · 4802 阅读 · 3 评论 -
集成学习3——随机森林(RF)与 bagging
随机森林大家都不会陌生,相对于XGB来讲,方法很简单,没有那么多复杂的公式,其主要是一种思想——bagging,关于抽样、统计的。随机森林也是决策树家族的一员,了解随机森林也得从决策树开始,感兴趣的可以参考这篇文章 决策树——ID3/C4.5/CART算法 以及 集成学习1——XGBoost目录1,概述2,RF的基本思想2.1 bagging思想2.2 两个要点1,概述为什么要出现RF算法?当然是因为决策树算法有很多缺点和不足:决策树算法的缺点:1)贪婪算法,陷入局部最优。2)树过深,容易过拟原创 2020-06-22 11:43:09 · 492 阅读 · 0 评论 -
集成学习2——XGBoost本身的特点,及XGB与GBDT、LGB、RF的区别于联系
XGB模型十分优秀,在很多大赛中表现很好,如果选出3个优秀的机器学习算法,XGB肯定能排上号。本部分将会总结XGB的众多关键点,同时对比其他相关的树模型,比如GBDT、LGB、RF等,理解了这些,拿下相关面试不在话下。集成学习1——XGBoost集成学习2——XGBoost本身的特点,及XGB与GBDT、LGB、RF的区别于联系目录1,简要介绍XGB2,XGB与GBDT的不同点3, XGB为什么要泰勒展开?4, XGB为什么可以并行?5 XGB为什么快?6 XGB防止过拟合的方法?7 XGB如何处理原创 2020-06-19 14:47:16 · 3004 阅读 · 0 评论 -
集成学习1——XGBoost
我们都知道决策树有个明显的缺点就是容易过拟合,树的深度不容易控制,同时其表达能力有限,容易受数据的影响稳定性差,那么如何在不改变原始模型的基础上进一步提高模型性能呢?有两个思路:一种是采用随机森林的方法,即bagging思想;另一种就是XGBoost方法,boosting思想。XGBoost可以认为是GBDT的改进和升级,其算法思路相似,实现过程不同,本篇我会以XGB的总结为主,并点出XGBoost与GBDT的不同。集成学习1——XGBoost集成学习2——XGBoost本身的特点,及XGB与GBDT原创 2020-06-19 14:45:53 · 1056 阅读 · 0 评论 -
MCMC详解1——蒙特卡洛方法
MCMC是一种随机采样方法,用来处理一些复杂运算的近似求解。在HMM、LDA等模型中都有重要应用。目录1,蒙特卡洛方法2,拒绝-接受采样MCMC( Markov Chain Monte Carlo)马尔科夫蒙特卡洛方法,从名称上包含蒙特卡洛方法与马尔科夫链两部分,本文先总结蒙特卡洛方法。1,蒙特卡洛方法最早的蒙特卡洛方法都是为了求解一些不太好求解的求和或者积分问题。θ=∫abf(x)...原创 2020-04-22 23:30:59 · 2423 阅读 · 0 评论 -
概率分布、概率密度、概率分布函数、概率密度函数
今天突然看到概率分布、概率密度函数等概念,有点懵,赶紧复习以下。理解相关概念首先要区分的是变量类型,离散变量与连续变量,不同的变量对应不同的概率描述方法,我们分开来看。离散变量概率分布、概率密度是针对离散型变量而言的。概率分布:列出所有变量X的取值以及对应的概率,一个也不能少。比如:Xx1x_1x1x2x_2x2…xnx_nxn…pip_ipip1...原创 2020-04-21 21:47:01 · 6517 阅读 · 0 评论 -
决策树——ID3/C4.5/CART算法
最近在梳理一些算法资料,正好趁这个机会将一些积累写在博客上,方便以后回顾和完善。1,决策树的基本概念决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,如图1所示,故称决策树。在机器学习中,决策树是一个预测...原创 2020-04-08 15:21:40 · 1507 阅读 · 0 评论
分享