
算法模型
文章平均质量分 89
一条水里的鱼
这个作者很懒,什么都没留下…
展开
-
CIKM2023 | 突破双塔: 生成式交互的向量化召回
一篇比较经典的工作是美团的对偶增强双塔[模型]-(https://dlp-kdd.github.io/assets/pdf/DLP-KDD_2021_paper_4.pdf),即在训练时,q侧和d侧各自fake出一段embedding作为底层特征,去学习对方正样本的输出表征。不过,这种方式引入的交叉特征实际是非常"粗粒度"和"高阶"的,即携带的信息仅仅是对方tower最后输出的表征,对方tower在编码这段表征时,也仅仅只利用了fake的emb和tower本身的输入特征的交互。于是,本文横空出世。原创 2024-05-16 16:40:33 · 988 阅读 · 0 评论 -
POSO论文原理详解和实际应用
前段时间在业务中应用POSO[1]做了一些工作,进行了一些尝试和思考,放在这篇里分享,主要包括两部分:(1) POSO原理;(2) 实际应用中的尝试、效果和分析思考,欢迎大家对工作中的尝试和思考来交流。多说一句:初看论文和在业务中应用的时候,觉得这个思路简单优雅,并未深入体会其中的精妙,在写这篇分享的时候,多次看论文中的一些细节,不得不惊叹作者的巧思。推荐领域常用的方法是监督学习,本质是拟合数据的分布,不管是简单还是复杂的监督学习模型,数据限定了其效果的天花板。因此,监督学习的方法,存在一个共同的问题,对训原创 2022-08-05 11:23:12 · 2746 阅读 · 1 评论 -
SENet双塔模型:在推荐领域召回粗排的应用及其它
目前,双塔结构在推荐领域里已经是个常规方法了,在召回和粗排环节的模型选型中,被广泛采用。其实,不仅仅是在推荐领域,在其它领域,双塔结构也已经被越来越多得用起来了。比如,在当代搜索引擎的召回环节,除了常见的经典倒排索引来对Query和Document进行文本字面匹配外,经常也会增加一路基于Bert模型的双塔结构,将用户查询Query和搜索文档,各自通过一个塔形结构来打Embedding,以此增加Query和Document的深层语义匹配能力;......原创 2022-08-04 11:50:46 · 1181 阅读 · 0 评论 -
UCF,基于用户的协同过滤算法
基础算法1992 年提出UCF,UCF 的两个步骤找到和目标用户相似的用户集合 找到这个集合中用户喜欢的,且用户未见过的物品推荐如何计算两个用户u,vu,v的兴趣相似度?N(u)N(u)表示用户uu曾经有过正反馈的物品集合 N(v)N(v)表示用户vv曾经有过正反馈的物品集合利用 Jaccard 公式(余弦也行)计算用户u,vu,v的兴趣相似度wuv余弦相似度,重点[ 用户行为记录举例 ]用户AA对物品a,......原创 2022-03-18 15:22:02 · 3053 阅读 · 1 评论 -
vae算法原理及实现
近年,随着有监督学习的低枝果实被采摘的所剩无几,无监督学习成为了研究热点。VAE(Variational Auto-Encoder,变分自编码器)[1,2] 和 GAN(Generative Adversarial Networks) 等模型,受到越来越多的关注。 首先介绍vae( 变分推断)的数学原理:假如现在有一个f(x),很复杂,我们想用一个简单函数去近似它。那么,如果我们能够找到的一个bound,然后优化这个bound,就可以实现对f(x)的近似,这个就是变分推断里最基础的思想。原创 2021-08-31 20:45:19 · 9079 阅读 · 0 评论 -
AUC的含义——及线上线下不一致性分析
一、前言在算法面试中,常常会被一个问题AUC的物理含义是什么。其物理含义是:测试任意给一个正类样本和一个负类样本,正类样本的score有多大的概率大于负类样本的score。举例说明一下:样本:y=1,y = 1, y=1, y = -1, y = -1, y = -1模型1的预测:0.8,0.7,0.3,0.5,0.6,0.9模型2的预测:0.1, 0.8, 0.9, 0.5, 0.85, 0.2真实label中正负样本对为3*3=9模型1:正样本score大于负样的对包括(y1原创 2021-05-14 16:56:46 · 3381 阅读 · 0 评论 -
DPP重排算法
一、背景 多样性和相关性是衡量推荐系统的常用的指标,这两个指标同时影响着推荐系统的商业目标和用户体验。假设我们有一个待推荐的候选商品集合,针对一个给定的用户,推荐系统需要选择商品集合中的个商品展现给用户,同时希望展现给用户的商品列表满足一定相关性和多样性。这就是我们要解决的问题,那么首先我们必须弄清楚如何衡量相关性和多样性。Hulu在NIPS 2018 会议上发表的论文《Fast Greedy MAP Inference for Determinantal Point...原创 2021-04-25 15:00:57 · 6074 阅读 · 2 评论 -
LSH局部敏感哈希
原地址:https://www.cnblogs.com/bonelee/p/10943021.html阅读目录1. 基本思想 2. 局部敏感哈希LSH 3. 文档相似度计算 局部敏感哈希(Locality Sensitive Hashing,LSH)算法是我在前一段时间找工作时接触到的一种衡量文本相似度的算法。局部敏感哈希是近似最近邻搜索算法中最流行的一种,它有坚实的理论依据并且...转载 2019-12-30 17:11:07 · 762 阅读 · 0 评论 -
算法名词解释
梯度下降:穿越特征:正则化:监督/无监督学习:代价函数:学习率:原创 2019-12-24 18:01:03 · 1294 阅读 · 0 评论 -
阿里CVR预估模型之ESMM
本文介绍 阿里妈妈团队 发表在 SIGIR’2018 的论文《Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate》。文章基于 Multi-Task Learning 的思路,提出一种新的CVR预估模型——ESMM,有效解决了真实场景中CVR预估面临的数...转载 2020-03-16 10:12:48 · 1744 阅读 · 0 评论