
ML
文章平均质量分 86
凝眸伏笔
纵然伤心也不要愁眉不展,因为你不知道谁会爱上你的笑容。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【模型可解释性系列一】树模型-拿到特征重要度-打印关键因素
接下来一段时间内,会主要介绍下模型可解释性方向的一些常用方法。模型可解释性:主要用来解释为什么这个样本的特征是这样的时候,模型结果是那样。面向老板汇报工作(尤其是不懂算法的老板)和业务方。原创 2023-12-05 23:36:05 · 908 阅读 · 0 评论 -
【聚类】K-modes和K-prototypes——适合离散数据的聚类方法
两个新的聚类方法:K-modes和K-prototypes。下面分别介绍下两个方法。K-modes适用于离散数据,采用汉明距离K-modes算法是按照k-means算法的核心内容进行修改,主要有以下两点:1.度量方式。2.更新modes.K-prototypes适用于混合数据(有离散有连续)K-Prototype算法是结合K-Means与K-modes算法,针对混合属性.原创 2023-12-05 23:06:46 · 4883 阅读 · 0 评论 -
聚类的方法、原理以及一般过程
聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。聚类和分类的区别聚类(Clustering):是指把相似的数据划分到一起,具体划分的时候并不关心这一类的标签,目标就是把相似的数据聚合到一起,聚类是一种无监督学习(Unsupervised Learning)方法。分类(Classification)...原创 2022-08-27 21:45:46 · 36547 阅读 · 0 评论 -
Jeff dean谈2020年的发展趋势——多任务学习和多模式学习
在加拿大温哥华举行的NIPS会议上,13,000名研究人员探索神经科学,如何解释神经网络输出以及AI如何帮助解决现实世界中怎提,成为了焦点。记者问:您觉得来年Google面临哪些技术或挑战?Jeff答:就AI或ML而言,我们已经建立一个流程,通过该流程,可以了解如何在符合AI原则的不同产品应用和领域中使用机器学习。诸如模型卡之类的东西已经对该过程进行了更好的调整和补充。看到这些事情我真的很高兴。因此,我认为这些很好,并象征着我们作为社区应该做的事情。然后,我认为在许多原则领域中,存在真正的开放研翻译 2020-09-01 23:29:32 · 522 阅读 · 0 评论 -
FTRL(follow the regularition leader)的原理及其实现
一.原理二.代码2.1训练模型2.2预测thinking参考:1.拓展性质的详细解说:https://blog.youkuaiyun.com/ningyanggege/article/details/811337852.ftrl要优化的RDA和FOBOS:https://www.jianshu.com/p/168ac88346ec3.大厂们的在线学习:https://www.cnblogs.com/EE-NovRain/p/3810737.html4.ft...原创 2020-07-20 23:44:20 · 592 阅读 · 0 评论 -
逻辑回归从数据处理到生成模型
1.数据格式数据存放于data.txt文件中,形式如下,这里使用了5个特征:f1,f2,f3,f4,f5,即5列,外加一列label。f1 f2 f3 f4 f5 label9976.17129226 0.966292134831 1883 0.837399047422 2 16295.26515736 0.723188405797 712 0.909911678116原创 2020-07-12 22:07:05 · 1129 阅读 · 0 评论 -
【ML】特征选择方法
单变量特征选择对每一个特征进行测试,衡量该特征和响应变量之间的关系。优点:易于运行,易于理解,通常对于理解数据有较好的结果,但其与设计的算法模型无关。常见的方法:1、皮尔逊相关系数皮尔逊相关系数表示两个变量之间的协方差和标准差的商计算公式:系数理解:在实践统计中,一般只输出两个系数,一个是相关系数,也就是计算出来的相关系数大小,在-1到1之间;另一个是独立样本检验系数,用来检验样本一致性。也可能从数学的角度理解,类似余弦夹角。0.8-1.0 极强相关 0.6-0.8 强原创 2020-06-25 23:36:13 · 439 阅读 · 0 评论 -
【矩阵分解八】矩阵分解的优缺点及其高级演化
矩阵分解推荐算法的优点矩阵分解结合了隐语义和机器学习的特性,能够挖掘更深层的用户和物品间的联系,因此预测的精度比较高,预测准确率要高于基于邻域的协同过滤以及基于内容的推荐算法; 比较容易编程实现,随机梯度下降法和交替最小二乘法均可训练出模型。同时矩阵分解具有比较低的时间和空间复杂度,高维矩阵映射为两个低维矩阵节省了存储空间,训练过程比较费时,但是可以离线完成;评分预测一般在线计算,直接使用离线训练得到的参数,可以实时推荐; 矩阵分解具有非常好的扩展性,改进后的矩阵分解如 SVD++、TimeSVD原创 2020-05-27 20:04:34 · 5317 阅读 · 2 评论 -
【矩阵分解】优化方法-交替最小二乘ALS(Alternating Least Squares)
需要清楚,这里的ALS是求解的方法,类似SGD,前面将的SVD、Funk-SVD等方法,是构造了不同的损失函数。那么损失函数怎么求解得到参数解?ALS可以达到这一目的。原创 2020-05-27 19:31:09 · 5792 阅读 · 0 评论 -
【矩阵分解六】处理隐式反馈-加权正则矩阵分解法WRMF (weighted regularized matrix factorization)
改进点(跟前几篇的SVD比):一句话总结:当数据样本只有隐式反馈时,以前的数据建模方式便不再适用。原因:1.隐式反馈中默认只有正样本(one-class问题);2.未观测到的样本默认为负样本(显然不合理,也可能喜欢)。概念:显式反馈:形如rating矩阵,这种直接评分的矩阵,称之为显式反馈;隐式反馈:构造样本时,数据不是评分、评论这种直接表示喜好,使用点击、下单这种数据,侧面表示喜好的形式,称之为隐式反馈。我们前面讲的算法都是针对显式反馈的评分矩阵的,因此当数据集只有隐式反馈时,应用上述原创 2020-05-27 19:15:30 · 2756 阅读 · 0 评论 -
【矩阵分解五】TimeSVD
一句话总结:在构建元素????̂????????时,每个时间段学习一个参数,某个时间段参数使用该时间段数据进行学习,也即是加入时间权重。原创 2020-05-26 23:14:32 · 981 阅读 · 0 评论 -
【矩阵分解四】SVD++
一句话总结:SVD++算法在Bias-SVD算法上进一步做了增强,考虑用户的隐式反馈。也就是在Pu上,添加用户的偏好信息。原创 2020-05-26 23:13:30 · 2437 阅读 · 0 评论 -
【矩阵分解三】BiasSVD
一句话总结:在矩阵分解模型中,加入偏置(Bias)部分,也就是衡量商品和用户自身的因素。原因:经过观测,评分数据大部分都是和用户或物品无关的因素产生的效果,即有很大一部分因素是和用户对物品的喜好无关而只取决于用户或物品本身特性。这些独立于用户或独立于物品的因素称为偏置(Bias)部分。原创 2020-05-26 23:12:54 · 2726 阅读 · 0 评论 -
【矩阵分解二】FunkSVD
一句话总结改进点和优化点:改进SVD的计算效率问题、数据稀疏问题;将矩阵R分解为两个低维矩阵,通过重构的低维矩阵预测用户对物品的评分,目标函数中加入正则,控制模型方差。原创 2020-05-26 23:11:21 · 6849 阅读 · 1 评论 -
【矩阵分解一】奇异值分解SVD(Singular Value Decomposition)
1.基于矩阵分解推荐算法的背景矩阵分解模型在推荐系统中有非常不错的表现,相对于传统的协同过滤方法,它不仅能通过降维增加模型的泛化能力,也方便加入其他因素(如数据偏差、时间、隐反馈等)对问题建模,从而产生更佳的推荐结果。先来说说矩阵分解几个明显的特点,它具有协同过滤的 “集体智慧”,隐语义的 “深层关系”,以及机器学习的 “以目标为导向的有监督学习”。在了解了基于邻域的协同过滤算法后,集体智慧自不必多说,我们依次从 “隐因子” 和 “有监督学习” 的角度来了解矩阵分解的基本思路。基于矩阵分解的推荐原创 2020-05-26 20:18:38 · 3540 阅读 · 0 评论 -
LightGBM相比于Xgboost的改进及实践
这篇文章内容主要来源与梁云大佬的博客,摘录下来,标注自己的理解。一,LightGBM和XGBoost对比LightGBM可以看成是XGBoost的升级加强版本,2017年经微软推出后,便成为各种数据竞赛中刷分夺冠的神兵利器。正如其名字中的Light所蕴含的那样,和XGBoost相比,LightGBM在大规模数据集上跑起来更加轻盈。模型精度:XGBoost和LightGBM相当。训练速度:LightGBM远快于XGBoost。(快百倍以上,跟数据集有关系)内存消耗:LightGBM远小原创 2020-05-16 15:22:26 · 3861 阅读 · 0 评论 -
【推荐】pairwise、pointwise 、 listwise算法是什么?怎么理解?主要区别是什么?
写在前面:写博客当成了学习笔记,容易找到去完善,不用于商业用途。通过各种途径网罗到知识汇总与此,如有侵权,请联系我,我下掉该内容~~1.搜索推荐中pairwise方法的适用性参考:1.https://mp.weixin.qq.com/s/IJ3x02KTW7NAocGb1sjRgg2.https://segmentfault.com/a/1190000019370...原创 2020-05-11 14:04:42 · 43353 阅读 · 3 评论 -
【DNN】模型的优化方法汇总--原理--优缺点--适用场景(Adagrad、ADAM、FTRL)
深度学习优化算法有哪些??SGD,Adagrad,Adam,LazyAdam,Madam,适用场景以及优缺点。原创 2020-05-07 13:23:59 · 15806 阅读 · 3 评论 -
【ML】embeding是什么?怎么理解?生成方式有哪些?
aribnb的论文可以仔细研读几遍1.相比One-hot编码,Embedding方法能够得到更紧凑的向量表示。原创 2020-05-06 17:13:37 · 5043 阅读 · 0 评论 -
【ML】FM & FFM应用场景-优点-原理-代码
一.应用场景点击预估。优点:1.高度稀疏数据场景;2.具有线性的计算复杂度。二.解决的问题旨在解决稀疏数据下的特征组合问题。现象:一个是类别特征经过one-hot产生的特征稀疏,另一个是特征维度剧增。CTR/CVR预测时,用户的性别、职业、教育水平、品类偏好,商品的品类等,经过One-Hot编码转换后都会导致样本数据的稀疏性。特别是商品品类这种类型的特征,如商品的末级品类约......原创 2020-04-27 13:55:00 · 1805 阅读 · 0 评论 -
【ML】SVM适用场景-原理-优缺点学习笔记
原创 2020-04-23 09:50:50 · 2197 阅读 · 0 评论 -
【ML】目标函数、损失函数、代价函数、结构风险函数分别是什么,怎么用
笔记:参考链接:1.对数损失函数:https://www.cnblogs.com/klchang/p/9217551.html2.hinge损失函数:https://www.jianshu.com/p/fe14cd0660773.有图介绍的各种损失函数:https://baijiahao.baidu.com/s?id=1643175053031902456&wfr...原创 2020-04-23 09:37:37 · 1355 阅读 · 1 评论 -
【ML】word2vector原理-应用-代码
一.前言先回答下,为什么会出现word2vector这个算法。首先来看one-hot的不足。黑色加粗部分,导致word2vector出现的原因。最基本的也是最简单的把word转换成vector的办法就是通过计数word在文档中出现的次数,这样的表达方式称为one hot或者count vectorizing。假设词典共有V个词,那么每一个单词都有一个V维度的向量来表示,向量中只有一个位置为...原创 2020-05-06 16:58:35 · 1479 阅读 · 0 评论 -
【ML】熵、信息增益、信息增益比学习笔记
原创 2020-04-18 14:09:24 · 183 阅读 · 0 评论 -
【ML】GBDT/Adaboost算法原理-适用场景-优缺点-面试常问
一.简略介绍GBDT(Gradient Boosting Decision Tree)又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法。GBDT主要由三个概念组成:RegressionDecistionTree(即DT),GradientBoosting(即GB),Shrinkage(算法的一个重要演进分枝,目前大部分源码都按...原创 2020-04-18 13:20:25 · 7240 阅读 · 0 评论 -
【xgboost】理论推导+代码demo
目录1.泰勒公式2.梯度下降法(Gradient Descend Method)3.牛顿法4.GBDT原理分析5.XGBoost原理目标函数6.xgb增益计算方法的演进:1.泰勒公式定义:是一个用函数在某点的信息,描述其附近取值的公式。 基本形式: 其中一阶泰勒展开式就是求一阶导,二阶展开式即求二阶导。x0为已知,公式表示f(x)在x...原创 2020-04-14 16:38:03 · 679 阅读 · 0 评论 -
【ML】梯度下降、随机梯度下降与批梯度下降算法之间的比较
这三种算法都用于反向传播的优化损失函数算法。在每轮迭代中更新一次权重w,根据多次迭代,最终无限的靠近我们预期的权重最优值。batch GD, mini-batch GD, SGD都可以看成SGD的范畴, 只不过区别在于每次取多少的样本了。1. 梯度下降算法:主要优点:梯度更新准确(1) 如果数据集比较小,完全可以采用全数据集(Full Batch Learning)的形式,采用全数据有...原创 2020-04-14 10:34:28 · 1772 阅读 · 0 评论 -
【面试题目】推荐/数据挖掘/机器学习方向面试题目汇总
序号 面试问题 考察知识点 主题 知识整理 1 L1和L2正则的区别,如何选择L1和L2正则?L1在0处不可导,怎么处理? 正则化 ML 2 LR和SVM的联系与区别? LR SVM ML 3 LR与线性回归的区别与联系? LR linear regression ML ...原创 2020-04-09 22:34:59 · 327 阅读 · 0 评论 -
【ML】boosting、stacking、bagging、blending是什么?怎么用?
感觉算法面试必不可少的一个问题:boosting、stacking、bagging、blending是什么?有什么区别?下面整理一下相关知识,巩固熟悉一下。最上面的为内容简练后的汇总,最下面说的太复杂(如果想多了解,可往后看):【占位:内容简练】1.bagging和boosting的区别:二者的主要区别是取样本方式不同。bagging采用均匀取样,而boosting根据错误率来采样...原创 2020-04-07 15:46:44 · 1001 阅读 · 0 评论 -
【ML】回归杂记-岭回归-lasso回归
1.Linear Regression:(线性回归)用一个因变量(Y)与多个自变量(x1,x2...)的关系,表达式:Y = a + W * X简单来说, 通过一条直线来拟合自变量与因变量之间的关系。参数W,a取不同的值, 会得不同的直线, 得到最优直线的过程就是线性回归的算法过程,也就是求解参数W,a的过程。最优直线的求解是基于最小二乘法(Ordinary Least Squares)。...原创 2020-03-28 11:17:34 · 1576 阅读 · 0 评论 -
【xgboost】面试问答---外加与gbdt & lightgbm & catboost的异同点
目录一.xgboost的适用场景:1.优点2.刨根问底1. 简单介绍一下XGBoost2. XGBoost与GBDT有什么不同?3.XGBoost为什么使用泰勒二阶展开?4.XGBoost为什么可以并行训练?5.XGBoost为什么快?1.xgboost与三者的异同点汇总:算法上区别:2.xgboost与lightgbm的异同点:3.xgboost......原创 2020-04-08 13:28:55 · 2956 阅读 · 0 评论 -
【ML】线性回归适用场景-原理-优缺点汇总
1.什么是回归?回归是监督学习的一个重要问题,回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值也随之发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数。线性回归几乎是最简单的模型了,它假设因变量和自变量之间是线性关系的,一条直线简单明了。2.适用场景3.原理线性回归模型f(x)=WX + b目的:找出W,使得f(x...原创 2020-03-25 22:40:53 · 15284 阅读 · 0 评论 -
【ML】逻辑回归适用场景-原理-优缺点汇总:
逻辑回归使用小节:优点:一是逻辑回归的算法已经比较成熟,预测较为准确;二是模型求出的系数易于理解,便于解释,不属于黑盒模型,尤其在银行业,80%的预测是使用逻辑回归;三是结果是概率值,可以做ranking model;四是训练快。缺点:分类较多的y都不是很适用;对于自变量的多重共线性比较敏感,所以需要利用因子分析或聚类分析来选择代表性的自变量;另外预测结果呈现S型,两端概率......原创 2020-03-25 10:14:43 · 14912 阅读 · 0 评论 -
【ML】L1正则、L2正则
正则化方法:L1正则化(Lasso回归):稀疏化模型参数。使用场景:L2正则化(Rideg/岭回归):缩小模型参数。使用场景:L1+L2正则化(弹性网络/ElasticNet):使用场景:...原创 2019-11-23 17:51:58 · 262 阅读 · 0 评论 -
【ML】训练集(train set) 验证集(validation set) 测试集(test set)
我发现很多人的机器学习功底真的很不扎实,搞的我都分不清楚这些基础内容了,还是得相信自己,实在不行,Google一下,来确认自己的认识。 一般需要将样本分成独立的三部分训练集(train set),验证集(validation set)和测试集(test set)。其中训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数,而测试集则检验最终选择最优的模型的性能如何。一个...原创 2019-11-19 22:45:57 · 1004 阅读 · 0 评论 -
Xgboost调参--针对过拟合和非平衡数据
调参须知:在机器学习中,调参是一项dark art(可以理解为一项优美而道不明的事情)。一个模型的最优参数取决于很多因素。因此不可能建立一个完备的调参说明书去获取最优参数。理解 Bias-Variance tradeoff(先说一下tradeoff的意思:就是折中的意思,这里是说)如果你上过机器学习或者统计学课程,这是一个非常重要的概念。当我们允许一个模型非常复杂的时候(比如,增加每一棵树的深度d...翻译 2018-06-26 19:53:31 · 27730 阅读 · 0 评论 -
kaggle比赛的一些小套路--机器学习的流程及其中方法
转自:https://www.kaggle.com/c/mdd-cup-2018/discussion/639441.关于比赛流程和leaderboard基本是 数据分析、数据清洗、特征工程、模型训练、验证调参与优化 这样一些基本环节,下面再细说。特别说明一下Kaggle 在计算得分的时候,有Public Leaderboard (LB)和 Private LB 之分。具体而言,参赛选...转载 2018-08-28 11:44:38 · 4681 阅读 · 0 评论 -
【树】决策树之分类树、回归树原理及代码
1.分类树 (Classification Tree)原理:内部节点表示一个特征或者一个属性,叶子节点表示一个类。用决策树分类,从根节点开始,对实例的某一个特征进行分类,根据分类结果,将实例分配到子节点,这时,每一个子节点对应着该特征的一个取值;如此递归的分配下去,直到将该实例分配到叶子节点。以C4.5分类树为例,C4.5分类树在每次分枝时,是穷举每一个feature的每一个阈值,找...原创 2019-03-20 11:47:23 · 5359 阅读 · 0 评论 -
【树】随机深林、提升树--集成方法
准备知识[1]:集成方法的目标是把多个使用给定学习算法构建的基估计器的预测结果结合起来,从而获得比单个估计器更好的泛化能力/鲁棒性。集成方法通常分为两种: 平均方法,该方法的原理是构建多个独立的估计器,然后取它们的预测结果的平均。一般来说组合之后的估计器是会比单个估计器要好的,因为它的方差减小了。 示例:Bagging 方法,随机森林, … 相比之下,在bo...原创 2019-03-24 19:45:22 · 412 阅读 · 0 评论 -
【ML】特征类别整理
Situation:最近在看业务代码,代码中很奇怪,出现了四类特征类型:连续、类别、one-hot、数值类型,然代码中部分类型并无后续操作。看到这四种类型特征,让我费解,为什么是四种?这四种究竟具体指代什么?确定正确?带着问题,开始了查找资料之路,汇总至此,若有不当之处,请批评指正,不吝赐教~~Target:1.上述四种类型特征的定义是什么?即什么样的特征能对其归类到上述特征。2....原创 2019-08-31 19:06:55 · 2696 阅读 · 0 评论