
推荐系统
rf
serenysdfg
菜鸟在成长
展开
-
cvr 预估中的转化延迟反馈
与点击行为可能在用户浏览后的很短时间内就发生并被广告系统收集不同,广告后续所产生的转化conversion很可能延时发生,过了几天才又去购买。**时间窗口:**转化行为反馈时间上的延迟会对模型的训练产生负向的影响,一个简单的做法可能是通过一个预先设定好的时间窗口来进行转化归因,使用经过了时间窗口并进行了归因后的数据来进行转化率模型的更新。但是这对时间窗口的选择带来了挑战,并且可能因为单一时间窗口带来调试上的不灵活。(有可能产生错误标签-时间太短;或者过时模型-时间太长)相对于cpc计费方式,ocpc,o原创 2020-09-06 10:29:50 · 1337 阅读 · 0 评论 -
flink入门了解
在线工程在机器学习场景下,在线离线处理也会面临一些问题。首先会将离线的数据进行预处理和特征工程(如红框标注所示),然后进行离线的模型训练,训练好的模型会推到线上做推理。推理模块加载模型后,在线的数据也会有进行预处理和特征工程的过程,将处理之后的数据喂给模型做在线推理。在机器学习领域除了离线的模型训练以外,还有在线的模型训练。如下图所示,我们通常会将预处理的数据写到一个 Message Queue 中(如 Kafka),然后进行 Online training,training 的过程是持续不断的,期间会原创 2020-09-01 15:14:09 · 587 阅读 · 1 评论 -
item2vec等召回
item2vec等item2vec主流程:从log中抽取用户行为序列将行为序列当成预料训练word2Vec得到item embedding:把用户浏览的商品集合等价于word2vec中的word的序列.得到item sim关系用于推荐1、首先第一步:这是我们从推荐系统log中获得的,也就是说User A行为过item a、item b、item d,User B行为过item a、item c,User C行为过item b、item e。2、继而我们需要将这些转化成句子。句子1就是a、原创 2020-09-01 15:07:05 · 1001 阅读 · 1 评论 -
多目标MMOE
介绍MMOEdeep部分:存在多个Expert网络,每个Expert网络的输出最终会经过门网络进行加权平均(比较简单的线性加权,Attention的思想)门网络通过softmax输出每个专家网络的可能性,线性加权相乘。然后进行分类或者回归任务对于不同的任务通过相应的Gating Network来对不同的Expert赋予不同的权重,使得部分Expert“专注于各自擅长的任务”论文:左侧的shallow tower部分和右侧的main tower部分,论文中提到的采用类似Wide&Deep模型原创 2020-07-24 18:17:43 · 2239 阅读 · 0 评论 -
推荐embedding总结2
Graph Embedding需要提供和序列采样出的类似的关系样本数据,只不过现在高了一个维度,于是整个样本构建的流程就变成了先按照业务关系构造图,然后从图采样到序列,再从序列采样到样本,才能作为Embedding训练模型的输入Item2Vec 也通过商品的组合去生成商品的 Embedding,这里商品的组合也是序列式的,我们可以称他们为“Sequence Embedding”更多场景下,数据对象之间更多以图(网络)的结构呈现,这种结构生成Embedding的方法,我们称之为图嵌入(Graph原创 2020-07-20 21:41:15 · 695 阅读 · 0 评论 -
推荐EMBEDDING 总结1
腾讯技术工程embedding 也迅速的用到了特征工程,画像构建召回排序等方面。而 faiss 作为专业的向量近邻检索工具则解决了向量召回在工程上的最后一公里的问题。embedding召回分类1. embedding 的基础用法——i2i 召回算法单纯使用 fasttext+faiss 就可以实现好几路召回算法,比如 :iten2vec,media2vec,tag2vec,loc2vec,title2vec。1、tag2vec 就是利用词向量去做召回,比...原创 2020-07-20 21:40:32 · 497 阅读 · 0 评论 -
Deep & Cross Network for Ad Click Predictions
解读参考:https://blog.youkuaiyun.com/Dby_freedom/article/details/86502623代码:https://github.com/FitzFan/Deep-Cross-Net传统的CTR预估模型需要大量的特征工程,耗时耗力;引入 DNN 之后,依靠神经网络强大的学习能力,可以一定程度上实现自动学习特征组合。但是 DNN 的缺点在于隐式的学习特征组合带来的不可解释性,以及低效率的学习(并不是所有的特征组合都是有用的)。DCN在学习特定阶数组合特征的时候效率非原创 2020-07-06 19:08:30 · 484 阅读 · 0 评论 -
Multi-task 模型在推荐场景的一些应用和工作
MMOE左侧的shallow tower部分和右侧的main tower部分,论文中提到的采用类似Wide&Deep模型结构就是指这两个tower,其中shallow tower可以对应Wide部分,main tower对应的是Deep部分存在n个Expert网络,每个Expert网络的输出最终会经过Gating Network进行加权平均(比较简单的线性加权,Attention的思想)对于不同的任务通过相应的Gating Network来对不同的Expert赋予不同的权重,使.原创 2020-07-03 19:43:33 · 656 阅读 · 0 评论 -
MTL多目标学习介绍综述等
工业界解决多目标问题的方案基本有三种策略:多模型分数融合、排序学习(Learning To Rank,LTR)、多任务学习(Multi-Task Learning,MTL)1、 An Overview of Multi-Task Learning in Deep Neural Networks-June 2017.两种深度学习 MTL 方法 2017Hard sharing:在多任务之间共享隐层,降低over fitting的风险Soft sharing各任务之间有自己的模型和参数,主要靠r原创 2020-07-03 19:36:52 · 4543 阅读 · 0 评论 -
用户画像
用户画像是企业或组织在基于产品目标的基础上,依据用户的个人属性、社会属性、消费行为和消费心理而抽象出的一个标签化的用户模型。简单来说就是“贴标签”。通过用户画像企业或组织通过画像定位目标人群,可以把符合用户需求的内容推送到用户手中,产品针对性推送,得到想要的优惠。用户画像构成要素用户静态和动态数据如何构建用户画像数据采集之前,一定要明确产品的主要用户群是哪些,然后有针对...原创 2020-05-06 00:03:38 · 719 阅读 · 0 评论 -
推荐系统之MAP与NDCG
Accuracy,Precision, Recall, F1, MAP(Mean Average Precision)and NDCG(Normalized Discount Cumulative Gain)1、Hit Ratio(HR)在top-K推荐中,HR是一种常用的衡量召回率的指标,越大越好分母是所有的测试集合,分子式每个用户top-K推荐列表中属于测试集合的个数的总...原创 2020-04-29 19:39:29 · 768 阅读 · 0 评论 -
HellTrustSVD
现在,大多推荐模型为了解决冷启动和稀疏问题引入社交网络中的信任关系。然而对于没有社交网络数据的场景挑战很大。社交数据的噪声和联系太弱也对结果有影响。作者提出一种既利用了显式数据和隐式数据的模型,可以在没有trust数据的情况下,从rating数据中提取社交关系,并且RMSE和MSE还可以和普通的社交推荐一样好。大多数现有模型使用显式数据,忽视了隐式数据,其主要创新点主要在从评分矩阵中挖掘...原创 2020-04-23 00:37:04 · 521 阅读 · 1 评论 -
graph-embedding
word2vec和由其衍生出的item2vec是embedding技术的基础性方法,但二者都是建立在“序列”样本(比如句子、推荐列表)的基础上的。而在互联网场景下,数据对象之间更多呈现的是图结构。典型的场景是由用户行为数据生成的和物品全局关系图(图1),以及加入更多属性的物品组成的知识图谱经典的Graph Embedding方法——DeepWalk2014年提出的DeepWalk...原创 2020-04-19 15:50:14 · 262 阅读 · 0 评论 -
Lookalike理解
相似受众定向简称Lookalike,由于新客户与现有客户具有类似特征,对扩展人群投放广告能有效帮助广告主拓展业务和发掘新客户发展:矩阵分解方法和基于社交关系链-----基于 LR 的方法,离线训练模型,离线扩展-----基于 Embedding 的方法--参考腾讯广告分享Offline Lookalike Pipeline对每个号码包独立训练一个排序模型,将得到的相似用户上传...原创 2020-04-15 19:55:02 · 2396 阅读 · 0 评论 -
基于社交的推荐
一类是利用用户的社交网络来给用户推荐朋友,它只需要社交网络用户的关系数据,即社交网络分析中的链接预测,也叫朋友推荐,核心算法可参看社交网络分析中经典的链接预测算法,比如基于相似性的链路预测方法;一类是利用社交信息来进行物品的推荐。通过在传统的推荐算法的基础上融合社交边信息来提升用户的推荐性能,它基于这样的假设:用户的偏好很容易受到它的社交朋友们的影响,即用户的偏好很大程度上与他的社交朋友类似。...原创 2020-04-09 15:39:01 · 1049 阅读 · 0 评论 -
推荐方法的比较
LFM和基于邻域的方法比较基于邻域的方法(比如UserCF、ItemCF)1、LFM具有比较好的理论基础,他是一种学习方法,通过优化一个设定的指标建立最优的模型。基于邻域的方法更多是一种基于统计的方法,并没有学习过程。2、离线计算的空间复杂度 基于邻域的方法需要维护一张离线的相关表。在离线计算相关表的过程中,如果用户/物品数很多,将会占用很大的内存,LFM则节省了大量的内存。3、 离...原创 2020-04-08 01:30:16 · 245 阅读 · 0 评论 -
FM详解
FM因子分解机和矩阵分解FM介绍FM分解机是在线性回归的基础上加上了交叉特征,通过学习交叉特征的权重从而得到每个交叉特征的重要性。这个模型也经常用于点击率预估。其中,n代表样本的特征数量,x_i是第i个特征的值,w_0,w_i,w_ij是模型参数训练w_ij需要大量非零的x_i和x_j,而样本稀疏的话很难满足,太稀疏可以引进矩阵分解的技术,这也是为什么叫做分解机的原因...原创 2020-03-18 18:27:50 · 625 阅读 · 0 评论 -
推荐-其他
1、知识图谱与推荐系统结合知识图谱特征学习(Knowledge Graph Embedding)是最常见的与推荐系统结合的方式知识图谱特征学习为知识图谱中的每个实体和关系学习到一个低维向量,同时保持图中原有的结构或语义信息,最常见的得到低维向量的方式主要有基于距离的翻译模型和基于语义的匹配模型。依次训练的方法主要有:Deep Knowledge-aware Network(DKN)...原创 2020-03-06 21:28:04 · 171 阅读 · 0 评论 -
推荐系统在公司中算法
深度学习在CTR预估领域已经有了广泛的应用,常见的算法比如Wide&Deep,DeepFM等。这些方法一般的思路是:通过Embedding层,将高维离散特征转换为固定长度的连续特征,然后通过多个全联接层,最后通过一个sigmoid函数转化为0-1值,代表点击的概率。即Sparse Features -> Embedding Vector -> MLPs -> Sigmoi...原创 2020-03-06 21:03:01 · 396 阅读 · 0 评论 -
推荐CTR预估-几个基础模型FM \FFM\GBDT+LR
1、FM模型理论和实践FM(Factorization Machine)主要是为了解决数据稀疏的情况下,特征怎样组合的问题数据的稀疏性,是实际应用场景中面临的一个非常常见的挑战与问题。与线性模型相比,FM的模型就多了后面特征组合的部分。在数据很稀疏的情况下,满足xi,xj都不为0的情况非常少.对每一个特征分量xi引入辅助向量Vi=(vi1,vi2,⋯,vik),当交叉项参数全为0时...原创 2020-03-06 20:49:02 · 623 阅读 · 0 评论 -
推荐系统基础
评测指标movielen数据集https://www.jianshu.com/p/58b1087f12b3利用用户行为-协同过滤考虑上下文信息冷启动问题基于标签原创 2020-03-06 19:41:06 · 168 阅读 · 0 评论 -
推荐--企业模型-汽车之家推荐系统
参考:https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247497757&idx=1&sn=fe521ea5a746be9ba0aa208506d716b8用户理解包含用户属性、行为收集及行为的表示,资源的刻画包括自身的属性及外部赋给资源的特征用户和资源的匹配(召回和排序)有非常多的方法或模型,是推荐系统...转载 2020-03-02 00:01:58 · 680 阅读 · 0 评论 -
推荐系统系列-基础概论
受到大家公认的推荐算法基本包括以下几种:基于内容的推荐、协同过滤推荐、基于关联规则的推荐、基于知识的推荐、组合(混合)推荐及其他推荐1 基于内容的推荐基于内容的推荐是根据用户已经选择的对象,从推荐对象中选择其他特征相似的对象作为推荐结果。(1)这一推荐算法首先提取推荐对象的内容特征,和用户模型中的用户兴趣偏好匹配,匹配度较高的推荐对象就可作为推荐结果推荐给用户。例如音乐的共性,找到用户...原创 2020-02-28 11:52:14 · 586 阅读 · 0 评论 -
推荐论文-推荐相关经验总结
Lessons Learned from Building Real-Life Recommender Systems推荐总结2016Recsys会议分享http://www.woshipm.com/pd/480396.htmlXavier介绍了其在Quora和Netflix构建推荐系统时的10条经验:(1) Implicit feedback is more impo...原创 2020-02-27 23:23:53 · 316 阅读 · 0 评论 -
推荐-社交推荐相关
总结近时间矩阵分解+社交信息的融合模型(2018)模型性能不同社交推荐方法在不同数据集中不同用户社交强度下的性能对比研究难点与热点数据稀疏性/ 社交关系的有效挖掘/社交噪声/可解释性社交推荐/可扩展型社交推荐模型与多源信息的融合/社交推荐模型快速求解/社交信息动态变化的(有效地刻画社交网络动态变化的特点 )/用户隐私保护/前沿理论与方法在推荐上的应用推荐...原创 2020-02-27 23:18:46 · 1676 阅读 · 1 评论 -
推荐-论文阅读
1阿里搜索推荐升级201905阿里搜索推荐升级201905https://segmentfault.com/a/1190000019173473贡献1、底纹推荐的算法优化中,创新性地提出了基于异构网络(HIN)的推荐方法,对异构网络中所有节点用term embedding的某种融合方法来进行表示2、下拉推荐优化:核心思路一方面增加用户主动输入的特征以及样本,修正下拉本身的马太...原创 2020-02-27 22:43:58 · 172 阅读 · 0 评论 -
推荐系统特训代码系列-1
读取数据def load_rating_file(self,infile,rating_user, rating_item, rating_score,spliter): with open(infile,'r') as rd: while True: line = rd.readline() if not line: ...原创 2020-02-27 13:45:48 · 161 阅读 · 0 评论 -
DNN CTR预估介绍
如何支持大规模离散DNN一直是工业界面临的难题2012年 ICML 的《Deep Networks for Predicting Ad Click Through Rates》embeddingEmbedding的思路追溯了Hinton 1986的论文《Learning distributed representations of concepts》,从Mikolov的Word2ve...转载 2019-12-28 16:26:50 · 699 阅读 · 0 评论 -
混合推荐系统介绍
混合推荐算法就是利用两种或者两种以上推荐算法来配合,克服单个算法存在的问题,期望更好地提升推荐的效果1存在的问题利用混合推荐算法更好地避免当前主流推荐算法存在的问题,比如1冷启动问题、2数据稀疏性问题3马太效应(头部”标的物“被越来越多的用户”消费“,而质量好的长尾”标的物“由于用户行为较少,自身描述信息不足而得不到足够的关注)4灰羊(gray sheep)效应(用户倾向...原创 2019-12-26 08:52:28 · 1589 阅读 · 0 评论 -
推荐系统相关知识链接
1-好:EMBEDDING 在大厂推荐场景中的工程化实践https://lumingdong.cn/engineering-practice-of-embedding-in-recommendation-scenario.html论文:1(Y ouTube - 2016 年 9 月的 RecSys )https://static.googleusercontent.com/medi...原创 2019-11-25 19:19:46 · 155 阅读 · 0 评论 -
推荐-surprise库
algorithms such as baseline algorithms, neighborhood methods,、matrix factorization-based ( SVD, PMF, SVD++, NMF), and many others.various similarity measures (cosine, MSD, pearson...) are built-i...原创 2019-10-30 20:51:37 · 695 阅读 · 0 评论 -
推荐评估指标python版本precision/recall/ndcg/map/mrr
#已经取了前k个def precision_and_recall(ranked_list, ground_list): hits = 0 for i in range(len(ranked_list)): id = ranked_list[i] if id in ground_list: hits += 1 pre...原创 2019-07-06 13:39:16 · 2694 阅读 · 0 评论 -
libfm
FM模型主要目标是:解决数据稀疏的情况下,特征怎样组合的问题,因此该算法主要用于组合特征等特征工程。参考 https://blog.youkuaiyun.com/chloezhao/article/details/53462411 使用手册中文版具体可以查看readme.pdf进入src的libfm目录点击make all命令,在bin目录下会生成三个可执行的文件的convert* libFM...转载 2019-05-10 14:56:22 · 824 阅读 · 0 评论 -
libmf使用
主页介绍https://www.csie.ntu.edu.tw/~cjlin/libmf/ github介绍https://github.com/cjlin1/libmfLIBMF is a library for large-scale sparse matrix factorizationproviding solvers for real-valued matrix f...原创 2019-05-10 00:53:09 · 423 阅读 · 0 评论 -
张量分解
标量(scalar)、向量(vector)和矩阵(matrix),而张量则不那么常见,但实际上,标量是第0阶张量,向量是第1阶张量,矩阵是第2阶张量,第3阶或阶数更高的张量被称为高阶张量(higher-order tensor),一般提到的张量都是特指高阶张量1 稀疏张量的Tucker分解张量分解有各种各样的分解结构,而且对于每种结构其求解的算法也不唯一(常见的做法是采用ALS(alter...原创 2019-04-18 17:33:18 · 2009 阅读 · 0 评论