- 博客(9)
- 收藏
- 关注
原创 第五章 行为序列(王树森学习笔记)
精排模型要给每个候选物品打分,分数表示用户对候选物品的兴趣,最后根据分数的高低给这500个候选物品排序,保留。用户塔看不到候选物品(比如双塔召回时,有上亿候选物品,用户只能看到用户特征,看不到候选物品特征),故不能把注意力机制用在用户塔。LastN列表中的物品可能是一年前,或十分钟前的交互,重要性不同(时间越久远,重要性越低)DIN的序列短,记录用户近期行为(只记录用户最近交互过的100~200个物品),无需考虑时间信息。注意,用户还有其他的很多特征,比如用户ID、离散特征、连续特征等,把所有这些特征。
2025-01-14 22:33:01
736
原创 第四章 预训练语言模型 Seq2Seq,Attention,Transformer
本文主要介绍了Seq2Seq模型,Attention机制和Transformer模型;从模型结构训练等多个方面详细的介绍了预训练语言模型。
2025-01-14 22:31:44
1577
原创 第四章 特征交叉(王树森学习笔记)
我们用一个现实的例子来理解,比如我们要预估一个二手房的价格,单用面积和地理位置都不能很好的预测结果,将两个特征交叉之后会有较准确的预测。不论是内积or哈达玛积,都要求每个特征的embedding向量形状一样,都是k维向量;因此在实践中,最好人工指定一部分特征做交叉,这样既可以减少参数数量,也可以让concatenation之后的向量变小。,对m^2个向量做concatenation,得到的向量维度太大,且其中大多数都是无意义的特征。用特征交叉的话,两个特征不仅能相加,还能相乘,这样可以提升模型的表达能力。
2025-01-11 23:06:02
862
原创 第二章 召回(王树森学习笔记)
双塔模型有两个塔,用户塔和物品塔。用户塔物品塔输入用户特征物品特征特征变换EmbeddingEmbedding输出余弦相似度策略/训练方法训练方法需要正负样本过采样冷门物品,或降采样热门物品&混合几种负样本召回最近邻查找模型更新全量or增量优化梯度下降。
2025-01-09 20:50:03
1930
原创 第二章 统计语言模型 N-gram
是自然语言处理的一种模型,用于捕捉词序之间的。通过在文本上应用大小为的,并以(token)为单位对文本进行,从而产生长度为N的词序列,称之为gram。在该模型中,因此一个由其组成的各的的。:基于前N-1个词预测下一个词出现的概率在N-gram中,N代表连续词的数量。例如,:每个词的概率独立于其他词,仅考虑单个词的频率。:考虑两个连续词之间的关系,预测下一个词时只依赖于前一个词。:考虑三个连续词之间的关系,预测下一个词时依赖于前两个词。
2025-01-05 21:45:02
619
原创 第一章 推荐系统基础(王树森学习笔记)
点击率:点击次数/曝光次数转发率:转发次数/点击次数阅读完成率:滑动到底次数/点击次数 x f(笔记长度)·f()是一个,和笔记长度有关,笔记越,阅读完成率。
2025-01-04 19:16:38
707
原创 第一章 词向量
独热表示-->将词汇映射成向量。通过这种方法,每次词被映射为,其维度是。在该向量中,其余都是0.词向量将词转化为数字化的形式,使得计算机能够解析和处理它们。举例如下:我们有颜色:红色,蓝色,绿色,独热表示为红色 [ 0 0 1 ]蓝色 [ 0 1 0 ]绿色 [ 1 0 0 ]在这个表示法中,1的位置是根据决定的。我们看到下面的词汇表。以“红色”为例,它的索引为2,因此它对应的独热向量的第3个位置为1,其余为0.
2025-01-03 00:01:52
1501
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人