谢杨易-优快云博客

原创新书上架 -- 《精通推荐算法》

精通推荐算法》，限时半价，半日达。

2024-08-20 10:33:13 1898 4

用户行为序列建模是推荐算法中至关重要的一环，也是目前较为核心和前沿的研究方向。其主要分为短序列建模和长序列建模两大方向。短序列建模又主要分为池化和序列化两种方式，其中池化包括SumPooling等非特征交叉型，和以DIN为代表的AttentionPooling。序列化则包括以DIEN为代表的RNN型，和以BST、DSIN等为代表的型。目前基于Transformer强大的特征抽取和并行计算能力，Transformer型已经成为了短序列建模的主流。

2024-09-28 18:55:28 1307 1

原创精通推荐算法31：行为序列建模之ETA — 基于SimHash实现检索索引在线化

ETA通过对SIM检索阶段相似度计算方式的升级，使得top-K近邻搜索索引不需要离线构建，从而最大限度保证了检索阶段和主模型的一致性。可以发现，从MIMN离线建模长周期序列，发展到SIM离线构建索引，在线实现检索和建模，再发展到ETA索引也实现了在线化。模型每个部分逐步从离线过渡到在线，提升了整体一致性和更新频率。

2024-09-28 18:49:15 1167 1

原创精通推荐算法30：行为序列建模之SIM— 基于检索建模长周期行为序列

SIM通过先检索后建模的二阶段方式，有效将超长行为序列转化为了短序列。从而克服了离线建模时用户行为不能与候选物品交叉等问题，实现了在线建模。其Hardsearch和Soft-search检索方式的思考和落地，也充分体现了作者对业务特点的充分理解，是一次不错的理论结合实际。SIM工程落地也比较友好，特别是Hardsearch方案，已经被应用到了各大推荐场景。7。

2024-09-15 19:08:15 1298 1

原创精通推荐算法29：行为序列建模之MIMN— 记忆网络建模长周期行为序列

MIMN是工业界第一个解决长周期行为序列建模问题的模型，它巧妙结合了工程和算法，在DIEN的基础上，进一步显著提升了业务效果。其核心点主要有：通过UIC将行为序列建模从主模型中解耦出来，从而大大提升了主模型的推理速度，并使得长周期序列建模成为了可能。这是所有离线建模方案的核心。序列表征的更新机制十分巧妙。用户发生行为时，触发序列表征重新计算和更新。既避免了每次请求就更新带来的冗余计算量，也避免了每小时或每分钟定时更新带来的延迟。NTM记忆网络有效解决了GRU长程序列梯度弥散问题。

2024-09-07 09:03:17 1316 1

原创精通推荐算法28：行为序列建模之DSIN— 基于Session建模用户行为序列

阿里巴巴研究人员发现，用户行为序列是基于Session的。Session内兴趣相似且集中，Session间则兴趣差异较大。Session按照时间间隔来划分，比如 30分钟。如图511所示为真实场景下的多个用户行为Session。图中展示了三个Session，每张图片代表用户的一次商品点击行为，图片下的数字代表该点击行为与用户第一次点击之间的时间间隔，单位为秒。很容易发现，同一Session内用户兴趣高度集中，而不同Session间则兴趣较为不同。

2024-08-21 15:21:37 1145 1

原创精通推荐算法27：行为序列建模之BST— 代码实现

上文讲解了BST的背景和模型结构，本文给出其代码实现，供大家参考。

2024-08-21 10:03:48 1208 2

原创精通推荐算法26：行为序列建模之BST— Transformer建模用户行为序列

BST背景DIEN利用GRU循环神经网络来建模用户行为序列，捕获了用户行为的演变过程，以及行为间的相关关系，取得了非常不错的业务效果。但受制于GRU天然的串行计算方式，存在长程序列梯度弥散、串行计算影响速度等问题。在自然语言处理领域，Transformer自2017年提出以来，就席卷了整个行业，并在2018年BERT上线后大放异彩。2022年底火遍全球的ChatGPT，其模型底座就是Transformer。相比于GRU，Transformer优势巨大，主要有：可以并行计算。

2024-08-21 09:57:32 1265 2

原创精通推荐算法25：行为序列建模之DIEN -- GRU建模用户行为序列

DIN通过AttentionPooling的精巧设计，解决了行为序列与候选商品的充分交叉、行为序列针对不同候选物品的自适应建模、以及各历史行为重要性的有效区分等问题，引起了业界对用户行为序列建模的热情。但其序列中各历史行为之间没有关联，时序信息也是缺失的，无法表达用户兴趣的演化过程，导致行为序列建模的表达能力不足。进一步理解，类似于自然语言处理中的文本序列，用户行为序列本质上也是一个序列，用户当前是否点击与之前的历史行为息息相关。比如用户购买手机后，大概率接下来会买手机壳和贴膜。

2024-08-20 10:16:47 1165 1

原创精通推荐算法24：行为序列建模之DIN -- 训练方法和代码实现

DIN虽然不是第一个进行用户行为序列建模的模型，但它解决了行为序列建模的关键，也就是Attention池化。在它的基础上，不断涌现了其他基于用户行为序列的推荐算法模型。主要围绕两大核心问题：序列如何建模。DIEN利用GRU时序模型，来建模用户行为兴趣的演化过程。BST则将NLP中大放异彩的Transformer结构引入推荐算法，进一步提升模型表达能力。长序列如何建模。头部用户的行为可能会特别频繁，其行为序列十分长。长序列建模可能会增加很多额外的计算量，对系统线上响应速度有一定挑战。

2024-08-19 16:12:27 1331 1

原创精通推荐算法23：行为序列建模之DIN -- 注意力池化

用户行为序列包含了用户大量的个性化信息，比如在电商场景中，通过用户已购买商品的类目、品牌、价格，就能大体预估其对类目、品牌和价格的倾向，从而对后续精准预估发挥重要作用。更进一步的，可以将每个行为距离当前的时间间隔，也作为一个输入特征，从而表征行为随时间的衰减程度。，压缩为一个定长向量。将用户特征向量，也就是用户有过历史行为的商品的特征向量，与候选广告特征向量相减，得到一个新向量。当推荐T-shirt和手机给用户时，T-shirt可以与大部分历史行为产生关联，其行为序列建模后的向量，应该比手机的大。

2024-08-19 16:03:13 1273 1

原创精通推荐算法22：特征交叉之xDeepFM -- 异构模型加入子分支

特征交叉是推荐系统的重要研究方向，通过用户侧和物品侧特征的交叉，可以生成新的特征，提高模型的准确度。深度学习特征交叉，将人们从繁重的手动交叉工作中解放出来，极大的释放了生产力，并降低了特征工程门槛。同时，与FM和FFM等二阶自动特征交叉方法相比，深度学习可以实现高阶特征交叉，从而提升模型泛化能力和准确度。深度学习特征交叉，分为DNN类、异构模型类和序列模型类。以DeepCrossing、FNN和PNN为代表的DNN模型，将深度学习成功引入工业界推荐系统，实现了大规模特征自动交叉。以Wide。

2024-08-17 08:37:49 1030 2

原创精通推荐算法21：特征交叉之NFM -- 异构模型Deep侧加入显式交叉

NFM模型针对FM的二阶部分进行优化，通过交叉池化层和深度神经网络，为模型引入高阶特征交叉能力和非线性能力。它综合了FM的显式特征交叉，以及DNN的高阶特征交叉能力，同时具备二者的优点。由新加坡国立大学研究人员，于2017年提出，全称“9]。2 NFM模型推导。

2024-08-09 15:27:30 1085 1

原创精通推荐算法20：特征交叉之DCN -- 异构模型Wide侧引入高阶交叉

DeepFM通过FM显式引入了二阶特征交叉，提升了低阶特征交叉能力。但在推荐场景中，三阶、四阶甚至更高阶的特征交叉同样十分重要。比如在应用市场（如）推荐场景中，“年轻”的“男性”用户，对“射击类游戏App”下载率较高。此处特征组“用户年龄、用户性别、App类型”的三阶交叉，对标签“用户是否下载App”十分重要。有没有办法在模型中显式引入高阶特征交叉呢？有两种思路：通过DNN深度神经网络。DNN具有高阶特征交叉能力，但交叉是隐式，而不是显式的。

2024-08-06 15:44:11 893 1

原创精通推荐算法19：特征交叉之DeepFM -- 异构模型Wide侧引入FM

DeepFM通过对Wide侧优化，提升了异构模型表达能力，是推荐算法中的经典模型。虽然早在2017年就提出，距今已经很多年，但仍然广泛应用于各大推荐场景。与DeepDeep等模型相比，它的优势十分明显，主要有：不需要手工构造交叉特征，降低了对特征工程的依赖。相比之下，WideDeep仍然需要。模型可同时进行低阶和高阶特征交叉，兼顾了记忆和泛化两大能力。相比之下，DeepCrossing、FNN、PNN等模型则缺失了低阶特征交叉能力。

2024-08-03 19:57:11 1172 1

原创精通推荐算法18：特征交叉之Wide & deep（下）

精通推荐算法》，限时半价，半日达t=N7T8《精通推荐算法》，限时半价，半日达https://u.jd.com/VbCJsCz。

2024-07-31 10:39:40 655 1

原创精通推荐算法17：特征交叉之Wide & Deep（上）

矩阵分解相对于协同过滤的一大优点，就是隐向量的存在，提升了未出现过的特征组合间的泛化能力。Embedding的缺点在于，对于数据稀疏的特征，其Embedding学习困难，可能不收敛。定义为，基于特征相关性的可传递，探索很少甚至未曾出现过的新特征组合，以及他们与标签间的相关性。模型训练中，与标签相关性高的强特征，其权重会不断加强，从而使模型逐渐记住了这些强特征和共现关系。，由于特征与标签间通过多层神经网络连接，比较复杂，其权重容易被稀释，从而。另外，线性模型的可解释性也很好，权重大的特征，其重要性也比较高。

2024-07-31 10:34:40 807 1

原创精通推荐算法16：特征交叉之PNN

精通推荐算法》，限时半价，半日达t=N7T8《精通推荐算法》，限时半价，半日达https://u.jd.com/VbCJsCz。

2024-07-29 09:38:25 881 1

原创精通推荐算法15：特征交叉之FNN（下）

精通推荐算法》，限时半价，半日达t=N7T8《精通推荐算法》，限时半价，半日达https://u.jd.com/VbCJsCz。

2024-07-28 11:52:07 829 1

原创精通推荐算法14：特征交叉之FNN（上）

它将Embedding层参数和其他层参数一起，端到端训练得到。这种方法可以很好的保证Embedding层和其他层的一致性，但也带来了Embedding层收敛慢，模型整体训练耗时长的问题。它通过Embedding，将高维稀疏的输入特征，转化为低维稠密的输出特征。输入特征往往比较稀疏，而其他层则稠密很多，导致Embedding层参数相比其他层，训练机会少，难以收敛。特别是枚举值多的高维稀疏特征，比如用户id，导致输入层维度一般很大。比如长尾用户的id特征。FNN的模型结构，实现方法，以及存在的不足，详见下文。

2024-07-28 11:48:49 770 2

原创精通推荐算法13：图神经网络之GraphSAGE

GraphSAGE基于采样机制，可以使用mini-batch训练模型，不需要加载全部图信息。它有效解决了内存资源消耗问题，可以应用到工业界大规模图网络数据上。同时，它聚合了邻居节点的信息，提升了Embedding准确性。最后k层网络可以融合节点k跳关系，具有高度的可扩展性。但它采样和聚合时，没有考虑不同邻居的重要性不同。后续GAT（Graph Attention Networks）等模型，引入Attention（注意力）机制，对其进行了优化。感兴趣的读者可以自行阅读论文。

2024-07-27 08:40:11 716 2

原创好书推荐 -- 《精通推荐算法》

精通推荐算法》，限时半价，半日达1.1.1 推荐系统与用户体验 21.1.2 推荐系统与内容生产 31.1.3 推荐系统与平台发展 44.1.1 特征交叉的意义 434.1.2 特征交叉基本范式 444.1.3 特征交叉的难点 455.1.1 行为序列建模的意义 875.1.2 行为序列建模的基本范式 875.1.3 行为序列建模的主要难点 885.1.4 行为序列特征工程 896.1.1 Embedding概述 1336.1.2 Embedding表征学习的意义 134。

2024-07-26 09:46:36 1842 2

原创精通推荐算法12：图神经网络之GCN

GCN成功将卷积神经网络应用到了图结构数据中，可以有效抽取节点间关系，并建模图数据拓扑结构。但它需要将整个图数据加载到内存或GPU显存中，资源消耗十分大，不容易处理大规模图数据。另外它通常基于静态图，难以处理动态图。最后训练时需要导入所有节点，不能处理还没有出现过的节点。针对这些问题，GraphSAGE模型被提出。4作者新书推荐历经两年多，花费不少心血，终于撰写完成了这部新书。本文在6.5节中重点阐述了。源代码：扫描图书封底二维码，进入读者群，群公告中有代码下载方式。

2024-07-26 09:30:25 630 1

原创精通推荐算法11：基于异构图游走的Graph Embedding

DeepWalk、Line和Node2vec对图结构数据进行随机游走，成功将其转化为一个序列问题，并利用Word2vec训练得到节点的Embedding向量。但它们都基于同构图，其节点均属于同一种类型。但现实世界的数据网络大多基于异构图，其节点类型以及节点间关系是多元化的。因此基于异构图的GraphEmbedding十分重要。基于异构图游走的，以和EGES等网络为代表。使用事先定义好的异构节点游走规则，利用随机游走策略生成多条包含异构节点的序列，基于Word2vec。

2024-07-26 09:15:47 1128 3

原创精通推荐算法10：基于同构图游走的Graph Embedding

利用广度优先搜索（BFS），可以准确获取到节点周围邻居的分布情况，有利于建立其邻域的微观视图和结构信息，从而使模型能表达节点间的。调节超参p和q，对训练生成的Embedding向量进行聚类，可以得到不同的节点关系图，如图6所示。相反，利用深度优先搜索（DFS），可以准确获取到远方节点的信息，有利于建立当前节点和其他节点的位置距离关系，比如一跳、二跳或n跳，从而使模型能表达节点间的同质性。它充分考虑了节点间的距离等结构信息，可以更好的处理稀疏数据，并能够捕捉节点周围邻居节点的信息，因此表达能力更强。

2024-07-25 15:01:46 1086 2

原创精通推荐算法9：向量检索技术

向量检索在CV、NLP、搜索引擎、推荐系统和在线广告中应用十分广泛。利用距离计算和向量检索技术，可以为目标用户推荐与其最匹配的Top-K物品，这就是典型的u2i。还可以基于目标用户最近点击或购买过的物品，推荐与之最相似的Top-K物品，这就是典型的i2i。目前向量检索已经广泛应用在推荐系统的召回等模块中。本文会先介绍向量距离计算方法，它是向量检索的基础。然后再介绍四种主流的向量检索技术。最后介绍工业界应用较多的几种向量检索工具。

2024-07-12 20:56:06 1499 1

原创精通推荐算法8：Embedding表征学习 -- 总体架构

同时，它包含大量语义信息，可以很好地度量特征间的相似度，并具备一定的模糊查找能力。一般来说，两个特征越相似，其。常被称为“嵌入”或“向量”，它可以将高维稀疏特征转换为低维稠密向量，实现降维，其最典型的应用是自然语言处理中的词向量（例如在电商场景中，“拖鞋”和“皮鞋”两个商品类目特征的向量距离，比“拖鞋”和“纸巾”要小，如图。层，作用是将高维稀疏的输入特征转换为低维稠密的特征向量，并实现一定的模糊查找能力。的维度一般建议取特征枚举值个数的四次方根，枚举值多，向量维度高，会导致参数规模过大。

2024-05-29 15:15:39 1193 3

原创精通推荐算法7：多任务学习 -- 总体架构

推荐算法多任务学习主要包括多任务建模和多任务融合两部分。多任务建模主要解决如何同时学习多个任务的表征的问题，其核心在于需要平衡任务间的相关性和差异性，从而提升整体性能。多任务融合则主要解决如何利用多个预估值进行最终排序的问题，通常有融合公式、排序模型、强化学习等解决方案。

2024-05-29 14:30:07 1914

原创精通推荐算法6：用户行为序列建模 -- 总体架构

用户行为序列建模是推荐算法中至关重要的一环，也是目前较为核心和前沿的研究方向。其主要分为短序列建模和长序列建模两大方向。短序列建模又主要分为池化和序列化两种方式，其中池化包括求和池化、平均池化和最大值池化等非特征交叉型，和以DIN为代表的注意力池化。序列化则包括以DIEN为代表的RNN型，和以BST、DSIN等为代表的Transformer型。目前基于Transformer强大的特征抽取和并行计算能力，Transformer型已经成为了短序列建模的主流。长序列建模则更进一步，考虑如何挖掘用户长期兴趣。

2024-05-29 14:24:27 2580 1

原创我的新书《精通推荐算法：核心模块+经典模型+代码详解》出版了！

本书包括10章，各章的具体内容如下。第1章介绍为什么需要推荐系统、推荐系统的分类及其主要技术架构。第2章介绍如何构建数据样本和特征工程，从而训练模型。这是推荐算法的基础。第3章介绍深度学习之前的主流推荐算法，包括协同过滤、矩阵分解、逻辑回归和因子分解机等算法。第4~7章讲解精排模型算法。第4章讲解特征交叉，并介绍Wide&Deep和DeepFM等经典模型。第5章讲解用户行为序列建模，包括短序列建模和长序列建模方法，重点讲解DIN、DIEN和SIM等模型。

2024-04-02 18:18:31 304 3

原创精通推荐算法5：推荐算法评价体系

推荐算法评估指标比较复杂，可以分为离线和在线两部分。召回、粗排、精排和重排由于定位区别，其评估指标也会有一定区别，下面详细讲解。

2024-01-13 21:03:44 4685 1

原创精通推荐算法4：经典DNN框架特征交叉模型 Deep Crossing

微软2016年提出的Deep Crossing模型奠定了深度学习精排模型的基本架构，具有十分重要的意义。它采用“Embedding + MLP”的结构，成为目前推荐算法的基本范式。通过深度神经网络，实现大规模特征自动组合，大大减少了对人工构造交叉组合特征的依赖和开销。同时将残差网络第一次落地到推荐算法中，优化深度学习反向传播梯度弥散和过拟合等问题。

2024-01-10 09:46:54 985 3

原创精通推荐算法3：精排特征交叉 -- 总体架构

特征交叉可以帮助生成新的特征，提高模型准确度。利用深度学习进行特征交叉，可以解决手动特征交叉门槛高、工作任务重、无法穷举等缺点，大大提升了模型表达能力。深度学习特征交叉主要有DNN模型、异构模型和序列模型三大类。本文主要介绍特征交叉的意义、基本范式和主要难点

2024-01-02 21:34:35 1382 4

原创精通推荐算法2：推荐系统分类

当前各大平台基本都有自己的推荐系统，它已经深入到电商、社交、资讯、电影和音乐等各行各业。囊括了纯文本、图文、长短视频和直播等多种不同的内容介质，并产生了单列信息流、双列信息流和沉浸式等多种交互形态。另外，它可以使用在首页、垂直类目和相关推荐等场景。

2023-12-24 18:57:19 1292 8

原创精通推荐算法1：为什么需要推荐系统（系列文章，建议收藏）

搜索主要解决用户如何快速寻找自己感兴趣内容的问题，偏主动型消费。推荐则主要解决内容如何精准推送给合适用户的问题，偏被动型消费。二者对用户、平台和内容都有十分重要的意义。本文是《精通推荐算法》系列文章的第一篇，后续会连载更多内容。包括召回、粗排、精排和重排的知识体系、当前重难点、如何优化，以及业界的经典模型等。干货多多，强烈建议关注和收藏。

2023-12-24 18:27:50 1558 10

原创推荐算法架构7：特征工程

本文先讲解特征类目体系，分析推荐系统中一般会有哪些特征。然后讲解特征处理范式，分析如何对特征进行离散化、归一化、池化和缺失值填充等处理。最后讲解特征重要性评估，从而提升特征可解释性，并对其进行筛选，以及进一步挖掘更多高质量特征。

2023-12-21 10:13:37 5575 15

原创推荐算法架构6：数据样本

深度学习的数据样本决定了算法的上限，模型只是去不断逼近这个上限，可见数据样本对于深度学习的重要意义。与CV和NLP不同，推荐系统可以获取大量用户的浏览和点击等行为，很容易构造正负样本。例如，在精排点击率（Click-Through Rate，CTR）预估任务中，通常将用户点击物品作为正样本，将用户曝光未点击作为负样本。另外，精排面对的候选集和解空间相比召回和粗排要小得多，所以它的样本选择偏差（Sample Selection Bias，SSB）问题相对没那么严重。精排模型在数据样本上一般会遇到以下问题。

2023-12-18 18:05:52 3972 20

空空如也

空空如也