自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Transformer学习笔记5

word_1, word_2, word_3, word_4:每个都是维度为3的词向量,代表一个单词在嵌入空间中的表示。words:将这些词向量堆叠成一个矩阵(4行3列),其中每行代表一个单词的嵌入。

2025-02-24 22:29:15 508

原创 推荐系统学习笔记5

用户行为序列中的商品Embedding平均池化,与候选商品Embedding拼接后输入MLP。:用户兴趣多样性未被建模,简单平均池化丢失了行为序列中的动态兴趣。:用户ID、人口属性、历史行为序列(如点击的商品ID序列)。:局部激活(仅激活与候选商品相关的行为),无需固定长度。:所有特征通过Embedding转换为低维稠密向量。:Embedding + MLP(多层感知机)。)与用户行为序列中的商品Embedding(动态激活用户历史行为中的相关兴趣。:候选商品ID、类别、属性。:时间、位置、设备等。

2025-02-23 23:22:15 322

原创 Transformer学习笔记4

Decoder 采用自回归(Autoregressive)方式生成目标序列,逐个预测输出 token,具体过程如下。a. 输入:Encoder 的输出 + 已生成的序列(初始为起始符)防止模型在训练时“偷看”未来答案,保证自回归生成的一致性。e. 将当前步的输出添加到序列末尾,重复直到生成终止符。:在注意力计算中将填充位置的权重设为极小值(如。:保证生成过程的严格顺序性,避免未来信息泄漏。:逐个预测 token,依赖前序输出。,即当前输出仅依赖已生成的部分。d. 前馈网络生成当前步的输出。

2025-02-21 18:00:21 531

原创 推荐系统学习笔记4

CTR预估任务使用手工构造的交叉组合特征来使线性模型具有“记忆性”,使模型记住共现频率较高的特征组合,往往也能达到较好的baseline,且可解释性强,但面临着明显的缺点:特征工程的构建耗费精力;模型是强行记住组合特征,对于未曾出现的特征组合,权重系数为0,故无法进行泛化。Wide&Deep模型围绕记忆性和泛化性优化。泛化性(Generalization)是指模型能够用特征之间的传递性去探索历史数据中从未出现过的特征组合。但这也可能会因为数据的长尾分布导致长尾的一些特征值无法被充分学习,导致模型过度泛化。

2025-02-20 23:06:32 407

原创 推荐系统学习笔记2

协同过滤算法的基本思想是结合用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品。一般仅基于用户的行为数据(评价、购买、下载等),而不依赖于项的任何附加信息(物品自身特征)或用户的任何附加信息(年龄,性别等)。例如,我们要对用户A进行物品推荐,可以先找到和他有相似兴趣的其他用户。然后将共同兴趣用户喜欢的,但用户A未交互过的物品推荐给A。,前者是给用户推荐和他兴趣相似的其他用户喜欢的产品。考虑用户评分的的偏置,即有的用户喜欢打高分, 有的用户喜欢打低分的情况。c. 对用户进行物品推荐:在获得用户。

2025-02-13 22:46:44 328

原创 Transformer学习笔记2

Transformer采用编码器-解码器架构分别负责处理输入序列和生出输出序列。编码器和解码器中的每一层都包含相同的子层,包括自注意力机制和前馈网络。这种架构不仅有助于全面理解输入序列,而且能够生成上下文丰富的输出序列。自注意力机制的核心思想是,通过计算输入序列中所有位置之间的相似度(通常是通过点积计算),来决定每个位置的表示(embedding)如何“关注”其他位置的元素。每个位置都可以与序列中的所有其他位置进行交互,输出是这些交互的加权求和。

2025-02-13 12:14:42 652

原创 Transformer学习笔记1

Seq2Seq模型可分为三个部分:编码器(Encoder)、解码器(Decoder)及上下文向量(Context vector)。该模型是Encoder-Decoder架构的一种具体应用,所以具有Encoder-Decoder架构的特点:输入和输出的长度不固定,但上下文向量的长度是固定的;不同的任务可以选择不同的编码器和解码器(可以是一个 RNN (循环神经网络,但通常是其变种 LSTM(长短时记忆网络)或者 GRU(门控循环单元))。

2025-02-12 21:11:44 344

原创 推荐系统学习笔记1(Datawhale Fun-Rec)

学习笔记 - 推荐系统概述

2025-02-11 02:02:18 782 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除