
机器学习
文章平均质量分 78
Just Jump
勿忘来时路上的脚印。站在巨人的肩膀上。
你没有比别人更努力,更不会比别人更不努力。你只是按照你能做到的、最适合你自己的办法去实现自己的目标,去成长为你眼中优秀的人们中的一员。
你自己、优秀的人群;决心、视野;自律、标准。
业精于勤,行成于思。
古之成大事者,不惟有超世之才,亦必有坚韧不拔之志。
苟有恒,何必三更起五更眠;最无益,只怕一日曝十日寒。 十五年只做一个行当。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于行为序列的FastText高相关算法在电商人群挖掘中的实践应用
最近做的项目中有两个是跟白酒相关的,品牌知名度都挺高的(WLY、LZLJ),期望在中秋国庆期间,借助市场的天时地利(规律),在平台上挖掘出一波用户来创造一波营销和创收。项目周期大约3个月左右,从8月-10月。这样的项目属于人货匹配模型中典型的有货找人的情况,一般都有比较固定的算法模型,给出多条人群策略,做赛马实验即可。比如人对货的意向预测模型(即CTR/CVR类的模型),又或者使用推荐算法里的模型(如I2I2U、或者I2U2U模型),或者根据产品和用户的显著性分析做一些规则类的标签组合。原创 2024-10-22 17:11:57 · 971 阅读 · 0 评论 -
sklearn.preprocess.LabelEncoder出现从未见过值的处理方法
如果将LabelEncoder.transform将训练集转换为编码序列,则在测试集上使用时如果遇到新的值,则可能会报错。'<Unknown>'版权声明:本文为优快云博主「Rnan-prince」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.youkuaiyun.com/qq_19446965/article/details/120110169。如果您有一个新标签,它将被分配为未知类。结果编码为8、9、10。结果编码为8、8、8。转载 2024-05-24 18:32:26 · 253 阅读 · 0 评论 -
uplift model增益模型相关术语概念名词汇总
uplift model增益模型相关术语名词汇总原创 2022-10-21 20:11:39 · 2182 阅读 · 0 评论 -
[转]增益模型(Uplift Modeling)的原理与实践
uplift增益模型转载 2022-09-15 15:23:44 · 2156 阅读 · 0 评论 -
周志华《机器学习》个人笔记
这本书比较像导论性质,整体给你介绍下机器学习领域有哪些研究分支,以及这些研究分支中成熟的经典算法。这本书虽然也有算法描述,但这些算法都是实现底层机器学习算法的,如果没有编程基础或者现在主流的分布式编程的思想,想要直接自己动手据此写代码还是比较困难的。如果你想找的是直接上手coding的实践应用类的书籍,这本书可以放一放,等你先上手了再来。不是这本书难,其实它讲的东西都很简单,只是纯粹的它不是实践类的书籍。它能给你打下的是不错的概念基础。让你整体认识下机器学习的门道。让你跟专业的人对话的时候,on t原创 2022-02-02 00:36:47 · 6436 阅读 · 2 评论 -
序列特征Embedding后怎么用?
写在前面:前段时间做了个项目,用到了word2vec将用户浏览商品序列做了Embedding。但是这个Embedded的序列特征向量到底该怎么用呢?后面的模型该怎么设计呢?如何评价到底哪种用法是适合场景的?这种方法又该如何解释呢?所以,这里就解答这个问题。1、序列特征的处理方法之一:基于注意力机制方法序列特征的处理方法之一:基于注意力机制方法 - 知乎前言之前两篇讲过 稠密特征和多值类别特征加入CTR预估模型的常用处理方法,这篇介绍一下针对序列特征采用的最基本的注意力机制方法。我们都知道转载 2021-12-29 20:08:44 · 1200 阅读 · 0 评论 -
【转】成为机器学习大家,你不能不懂数学
2018-09-06|作者:陈薇编者按:如何自学机器学习?需要哪些数理基础?怎样从入门到进阶,成就大神之路?对于这些问题,作为毕业后投身机器学习研究的数学博士、微软亚洲研究院机器学习组主管研究员陈薇无疑是最有发言权的。在这篇书单推荐中,她从机器学习综述、算法优化、理论延展、数学基础四大方面入手,为大家提供一份机器学习的“完全指南”。在这个言必谈“AI”的时代,机器学习是重要的算法内核,而数学是理解和改进机器学习算法的必经之路。因此,我将在这篇文章中梳理机器学习的关键模块和与之联系的数学理论分支,..转载 2021-12-29 15:23:42 · 352 阅读 · 0 评论 -
【转】GBDT+LR CTR预估-Kaggle实例
原文:GBDT+LR CTR预估-Kaggle实例[有数据集] - 简书最近读了一篇GBDT+LR实现推荐系统的文章,准备实践一下,但是所有讲这种方式的文章都没有放数据集,所以我从头开始整理了一遍思路,并且找了Kaggle上一个比赛的数据集进行实现。1 背景CTR预估是工业界十分常见的一个问题,Click Through Rate指的是推送给某个顾客的商品是否会被点击,推送给顾客会最大概率被点击的商品无疑会提高盈利能力。在CTR预估问题的发展初期,使用最多的方法就是逻辑回归(L转载 2021-12-22 23:46:28 · 659 阅读 · 0 评论 -
【转】局部敏感哈希方法快速近邻计算加持下的Embedding
转自:炼丹秘术:Embedding的翅膀kaggle竞赛宝典技巧作者:DOTA,文章摘自炼丹笔记炼丹秘术:Embedding的翅膀在实践中,推荐系统利用Deep Learning去生成Embedding,然后通过Embedding在召回层进行召回是一种常用的方法,而且这种方法在效果和响应速度上也不比多路召回差。同时,在局部敏感哈希方法快速近邻计算的加持下,Embedding表现亮眼,本文我们来聊一聊到底Embedding的相关知识点。什么是局部敏感哈...转载 2021-12-15 21:19:06 · 354 阅读 · 0 评论 -
【转】XGBoost算法原理小结
转自:XGBoost算法原理小结前言XGBoost(eXtreme Gradient Boosting)全名叫极端梯度提升,XGBoost是集成学习方法的王牌,在Kaggle数据挖掘比赛中,大部分获胜者用了XGBoost,XGBoost在绝大多数的回归和分类问题上表现的十分顶尖,本文较详细的介绍了XGBoost的算法原理。目录1. 最优模型的构建方法2. Boosting的回归思想3. XGBoost的目标函数推导4. XGBoost的回归树构建方法5. XGBoost与GD转载 2021-12-15 21:15:44 · 522 阅读 · 0 评论 -
【转】DBSCAN聚类算法原理总结
转自:DBSCAN聚类算法原理总结数学基础不好的童鞋也能看懂的DBSCAN聚类算法原理总结https://mp.weixin.qq.com/s/od7LFQD7tRUpALKRKyrzmgDBSCAN是基于密度空间的聚类算法,在机器学习和数据挖掘领域有广泛的应用,其聚类原理通俗点讲是每个簇类的密度高于该簇类周围的密度,噪声的密度小于任一簇类的密度。如下图簇类ABC的密度大于周围的密度,噪声的密度低于任一簇类的密度,因此DBSCAN算法也能用于异常点检测。本文对DBSCAN算法进行了详细总结 。.转载 2021-12-06 20:54:27 · 3387 阅读 · 0 评论 -
【转】决策树代码练习
转自:【机器学习】决策树代码练习本课程是中国大学慕课《机器学习》的“决策树”章节的课后代码。课程地址:https://www.icourse163.org/course/WZU-1464096179课程完整代码:https://github.com/fengdu78/WZU-machine-learning-course代码修改并注释:黄海广,haiguang2000@wzu.edu.cn机器学习练习7 决策树代码修改并注释:黄海广,haiguang2000@wzu.e.转载 2021-12-05 22:15:33 · 818 阅读 · 1 评论 -
【转】可视化理解决策树
目前无论是机器学习竞赛还是工业界,最流行、应用最广泛的xgboost其实是优化后的GBDT(LightGBM里面的boosting比较经典稳定的也是GBDT哦!),而GBDT的基分类器最常用的就是CART决策树!掌握决策树,对理解之后的GBDT、LightGBM都有大有裨益。可视化的方式理解决策树,对深刻理解这个模型很有帮助。大家最熟知的决策树可视化实现方式是下面这种:dot_data=export_graphviz(clf,out_file=None,featu...转载 2021-12-05 22:13:04 · 1388 阅读 · 2 评论 -
如何做特征筛选
工作中做模型,首先很重要的一步就是特征工程,包括特征编码、特征归一、特征筛选等。这里聊一下工作中常用的做特征筛选的方法。特征覆盖率 特征封箱,即优势比 IV值 GAIN信息增益 CHI卡方 基于模型的筛选1、特征覆盖率对于样本,有多少用户有此特征,缺失情况如何。一般要求特征覆盖率大于一定阈值。2、特征封箱测试即特征在正样本、负样本中的占比对比测试。选择特征:pct_1/pct_0<=0.8 || pct_1/pct_0=>1.23、根据IV值、GAIN..原创 2021-12-05 12:25:09 · 2974 阅读 · 0 评论 -
【转】训练数据不平衡问题都怎么解?
作者|Chilia整理|NewBeeNLP本文主要讨论两种不平衡问题。 一是数据的类别本来就不平衡,比如在广告CTR预估中,可能90%的广告都不会被点击,只有一少部分被点击; 二是由于误分类cost的不对称性(asymmetric cost),例如把non-spam 分成spam的代价要远大于把spam分成non-spam。 在这篇文章中,我将介绍两大类方法:一是通过采样而改变数据集,二是修改训练策略。1. 从数据层面解决 – 重采样 (Resampling)...转载 2021-12-05 11:58:31 · 1737 阅读 · 0 评论 -
Xgboost安装、使用和算法原理理解
一、Xgboost相关重要文档1、官方文档官方文档中可查询到各语言版本的安装方法、官方用例等XGBoost Documentation — xgboost 1.6.0-dev documentationhttps://xgboost.readthedocs.io/en/latest/index.html2、githubgithub源码可查看代码实现、下载数据样例等GitHub - dmlc/xgboost: Scalable, Portable and Distributed Gradi原创 2021-12-03 11:24:58 · 3142 阅读 · 0 评论 -
word2vec应用的主要步骤及算法原理
写在前面:word2vec的算法实现参考博客:Spark MLlib — Word2Vechttps://blog.youkuaiyun.com/zhangchen2449/article/details/52795529?ops_request_misc=&request_id=&biz_id=102&utm_term=spark%20mllib%20word2vec%20霍夫曼树&utm_medium=distribute.pc_search_result.none-task原创 2021-11-18 20:29:48 · 2345 阅读 · 0 评论 -
[转]GBDT梯度提升决策树的理解
1、GBDT理论知识:GBDT的经典paper:《Greedy Function Approximation:A Gradient Boosting Machine》https://www.cnblogs.com/bentuwuying/p/6667267.html2、GBDT算法实践:模型流程、训练过程、特征选择、分类和回归、调参机器学习算法GBDT的面试要点总结-上篇https://www.cnblogs.com/ModifyRong/p/7744987.html3、论文http://.转载 2021-11-16 12:09:46 · 113 阅读 · 0 评论 -
使用scala做二元分类模型的评价
1、假设我们有一个训练好的二元分类模型tvsFitted,我们看下能得到这个模型的哪些指标来评价这个模型的好坏。 //fit val tvsFitted = tvs.fit(trainData)2、模型训练结束后,使用summary来获取评价指标 //best model summary 获取训练时最优模型的评价指标 import org.apache.spark.ml.PipelineModel //获取最优模型 val trainedPipe原创 2021-08-29 21:05:28 · 306 阅读 · 0 评论 -
梯度下降优化器概览
写在前面:翻译自经典的梯度下降法的总结文章An overview of gradient descent optimization algorithms翻译 2021-08-08 18:38:15 · 874 阅读 · 0 评论 -
Scala使用ALS模型做推荐
1、代码import org.apache.spark.sql.SparkSessionimport toby.gao.config.modelConfig/** * scala - recommendation 推荐系统 * package : org.apache.spark.ml.recommendation * 方法: ALS 、 ALSModel 交替最小二乘法 */object example28 { def main(args: Array[String]):原创 2021-08-05 17:47:21 · 1109 阅读 · 0 评论 -
使用scala做机器学习模型主要步骤示例
本文介绍使用scala做机器学习模型的一个主要步骤示例。这里主要列了些基本环节,可以在此基础上进行扩充。object mlExample { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .appName("TobyGao") .enableHiveSupport() .getOrCreate() val modelPath = "/user/原创 2021-08-04 22:30:58 · 2055 阅读 · 0 评论 -
使用Scala做特征工程常用方法
1、为后面的代码示例准备下数据 val modelPath = "/user/gaoToby/model_saved" val dataPath = "/user/gaoToby/ml_data" //1-1 load data // in Scala val sales = spark.read.format("csv") .option("header", "true") .option("inferSchema", "true")原创 2021-08-04 21:04:38 · 957 阅读 · 0 评论 -
10、《Spark高阶用法之机器学习》笔记
写在前面:在本分类专栏下的1-9翻译文章,和两篇sparkUDF的文章都是属于spark的常规低阶的用法,基本能满足日常的分析功能了。但是这些基本用法并没有涉及、也无法满足机器学习建模的需求。比如拆分特征向量和目标向量,比如生成特征向量,比如使用分类或回归模型,比如使用深度学习模型等....所以,从这篇文章开始,我们开始学习spark的高阶用法,即spark用于机器学习、深度学习。注意要结合官方文档学习,里面有非常详细的API说明和代码示例,非常有助于理解和实践应用。也是日后工作时常备的原创 2021-04-05 22:48:44 · 247 阅读 · 1 评论 -
用最小二乘法OLS做回归,并解读结果
使用OLS做回归#使用OLS做多元线性回归拟合from sklearn import linear_model,cross_validation, feature_selection,preprocessingimport statsmodels.formula.api as smfrom statsmodels.tools.eval_measures import mse from statsmodels.tools.tools import add_constant from sklea原创 2020-07-26 13:08:33 · 42439 阅读 · 2 评论 -
衡量风控模型优劣的曲线-PR曲线、ROC曲线、K-S曲线、Lift曲线
ROC曲线,横轴是FPR、纵轴是TPR,变化值是阈值。K-S曲线,又称作洛伦兹曲线。横轴是阈值、纵轴是TPR、FPR。PR曲线,横轴是Recall,纵轴是Precision,变化值是阈值。Lift曲线,提升指数曲线。其中,几种曲线形状展示:ROC曲线【参考图】K-S曲线【参考图】PR曲线Lift曲线【参考图】...原创 2020-07-24 23:04:51 · 2320 阅读 · 0 评论 -
【转】比较简单基础的几种回归分析方法
什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。我会在接下来的部分详细解释这一点。我们为什么使用回归分析?如上所述,回归分析估计了两个或多个变量之间的关系。下面,让我们举一转载 2020-10-17 21:20:42 · 2259 阅读 · 0 评论 -
论文笔记《An Engagement-Based Customer Lifetime Value System for E-commerce》基于用户参与度的电商用户生命周期价值系统
这篇论文还是蛮简单的,思路也很清晰,是很有实践价值的一篇论文。~换一个清新的模版来做论文笔记~原创 2020-09-30 19:28:31 · 544 阅读 · 0 评论 -
【推荐书籍】《机器学习范式在推荐系统中的应用Machine Learning Paradigms- Applications in Recommender Systems》
前几天吐槽了一本口水太多的推荐系统书籍《Practical Recommender Systems实用推荐系统》,最近读到了这本《机器学习范式在推荐系统中的应用》(英文名《Machine Learning Paradigms- Applications in Recommender Systems》),只有一百三十来页,信息浓度挺高,参考论文丰富,适合有基础、想系统提升的同学们自学使用。正在读中.......原创 2020-08-11 23:30:40 · 308 阅读 · 0 评论 -
【转】知识图谱(KG)存储、可视化、公开数据集、图计算、图编程工具分享
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。...转载 2020-08-06 21:18:55 · 1371 阅读 · 0 评论 -
【汇】连续变量的常用分箱测试方法:等频、等距、best_ks、卡方
分箱的基评估标准是依靠WOE与IV值,常用的方法是等频、等距、best_ks、卡方。决策树里对于连续值采用信息熵、信息增益率、方差、基尼系数等来进行拆分的选择。它们本质上是一样的,都是为了寻找最佳的拆分方式,具有最好的表达能力。只不过一个不是用模型能力表现,一个是用模型能力表现。等频分箱对连续变量从小到大排序,使用频次百分比qcut分割的方式对连续变量进行分箱,使得每个区间具有数量相同的样本量。等距分箱对连续变量从小到大排序,将取值区间等分成N等份,样本根据其取值落到对应的分箱中。转载 2020-07-24 22:18:56 · 4881 阅读 · 0 评论 -
【转】沈向洋博士学术演讲全录: “Engeering Responsible AI ”构建负责任的 AI
原文链接:https://www.sohu.com/a/378059570_651893今天的演讲主题是《Engineering responsible AI 》,众所周知,AI是一个热词,每个人都在谈论,实际上所有大企业的高管也都在谈论AI,可能你不理解为什么?这是因为人工智能的反义词是天生愚钝,所以你不得不谈论它。今天我真的想和大家分享一些东西,讨论为什么我们真的有点儿需要担忧AI。人们谈论的 AI 听起来非常花哨和科幻,但事实并不是。人们使用AI的场景无处不在,无时不在,非常简单的一个例子转载 2020-07-24 14:59:15 · 1073 阅读 · 0 评论 -
《Spark机器学习实用指南》笔记
整理了Spark机器学习实用指南原创 2020-07-22 11:44:52 · 163 阅读 · 0 评论 -
【转】深度学习常用损失函数总览:基本形式、原理、特点
转自博文:https://borgwang.github.io/ml/2019/07/28/loss-functions-in-ml.htmlhttps://mp.weixin.qq.com/s/e84CSBSXGaHwTqKGEOwXCA作者|王桂波来源|https://zhuanlan.zhihu.com/p/77686118机器学习中的监督学习本质上是给定一系列训练样本,尝试学习的映射关系,使得给定一个,即便这个不在训练样本中,也能够得到尽量接近真实的输出。而损失...转载 2020-07-20 16:58:36 · 279 阅读 · 0 评论 -
【转】机器学习必读TOP 100论文清单:高引用、分类全、覆盖面广丨GitHub 21.4k星
想要入门机器学习,奈何领域的新论文太多,不知道该看哪一篇?自2017年以来,超越SOTA的方法天天有,但往往针对性非常强,不一定是颠覆机器学习圈的重要成果。又回到了熟悉的话题:要想入行,还得看高引用经典论文。这里整合了2012年到2016年的高引TOP 100论文,引用量要求随着年份递减而递增,Hinton、Bengio、何恺明等大牛的论文都在其中,一起来看看吧:清单列表理解、泛化、迁移学习1、Distilling the knowledge in a neural ne...转载 2020-07-19 19:28:36 · 374 阅读 · 0 评论 -
机器学习建模思路逻辑
机器学习建模思路逻辑图原创 2020-07-19 19:42:51 · 283 阅读 · 0 评论 -
朴素贝叶斯分类器常用的三种条件概率模型:伯努利、多项式、高斯模型
一、条件概率和贝叶斯定理条件概率:贝叶斯定理: 贝叶斯分类器:若样本x有n个特征,用()表示, 将其分到类的可能性为:。 根据上面的公式可以求x属于各个分类的可能性,取最大可能性的分类。二、多项式模型处理离散的特征使用多项式模型。多项式模型在计算先验概率和条件概率时,会做一些平滑处理,其公式为:是类别为的样本个数,n是特征的维数,是类别为的样本中,第...原创 2020-07-15 17:18:34 · 3472 阅读 · 0 评论 -
【转】做ML项目,自查清单帮你理清思路
原文链接:https://towardsdatascience.com/task-cheatsheet-for-almost-every-machine-learning-project-d0946861c6d0【注:与我之前整理的sklearn 快速建模check list 异曲同工】任何科研项目都是系统性的,机器学习项目也不例外,它包含一系列大大小小、或繁或简的要素和组件,如讨论、准备工作、提出问题、模型构建和优化调整等。在这种情况下,开发者很容易漏掉一些重要的东西。八步完成 ML ..转载 2020-07-14 05:36:31 · 345 阅读 · 0 评论 -
【转】【重要】推荐系统之数据与特征工程
原文链接:推荐系统之数据与特征工程原文作者丨gongyouliu来自大数据与人工智能推荐系统是机器学习的一个子领域,并且是一个偏工程化、在工业界有极大商业价值的方向。大量应用于提供toC类产品的互联网企业服务中,通过推荐系统为用户提供精准的个性化服务。推荐系统通过推荐算法来为用户生成个性化推荐结果,而推荐算法依赖数据输入来构建算法模型。本篇文章我们来讲解推荐系统所依赖的数据,怎么处理这些数据,让数据转换成推荐算法可以直接使用的形式,最终我们就可以构建高效、精准的推荐模型,这些处...转载 2020-07-10 05:33:59 · 2760 阅读 · 0 评论 -
【转】支持向量机回归模型SVR
原博文地址目录SVM回归模型的损失函数度量 SVM回归模型的目标函数的原始形式 SVM回归模型的目标函数的对偶形式 SVM 算法小结一、SVM回归模型的损失函数度量SVM和决策树一样,可以将模型直接应用到回归问题中;在SVM的分类模型(SVC)中,目标函数和限制条件如下在SVR中,目的是为了尽量拟合一个线性模型y=wx+b;我们可以定义常量eps>0,对于任意一点(x,y),如果|y-wx-b|≤eps,那么认为没有损失,从而我们可以得到目标函数和限制条件如下:转载 2020-07-09 14:30:31 · 4346 阅读 · 0 评论