- 博客(133)
- 收藏
- 关注
原创 【王树森深度强化学习】价值学习 Value-Based Reinforcement Learning (2/5)
这节课讲Value-Based Reinforcement Learning (价值学习)。这节课的主要内容是Deep Q Network (DQN)和Temporal Different (TD)算法。
2025-11-02 11:15:53
986
原创 【王树森深度强化学习】基本概念 Deep Reinforcement Learning (1/5)
本文介绍了强化学习的基本概念和关键术语。主要内容包括:1)随机变量及其概率分布;2)专业术语如状态(s)、动作(a)、策略(π)、奖励(R)和状态转移(p);3)强化学习的两个随机性来源:策略函数和状态转移;4)回报(Ut)和折扣回报的概念,强调未来奖励的价值递减。文章通过游戏示例(如马里奥)阐述了agent与环境的交互过程,包括观测状态、执行动作、获得奖励和状态转移等环节。这些基础概念为理解强化学习算法提供了理论框架。
2025-10-30 21:27:43
851
原创 【菜菜sklearn机器学习】1.决策树
决策树是一种非参数监督学习方法,通过树状结构进行决策,适用于分类和回归问题。其核心是通过优化不纯度指标(如基尼系数或信息熵)来选择最佳节点和分支。sklearn中的DecisionTreeClassifier提供了criterion、random_state、splitter等参数来控制模型行为,其中剪枝参数(max_depth、min_samples_leaf等)能有效防止过拟合。实际应用中,决策树容易实现但可能存在不稳定性,可通过随机特征选择和集成学习提升性能。文章以红酒数据集为例,详细演示了决策树的建
2025-07-29 08:38:20
1161
原创 【深度之眼机器学习笔记】04-01-决策树简介、熵,04-02-条件熵及计算举例,04-03-信息增益、ID3算法
本文介绍了决策树构建中的关键概念与方法: 熵与条件熵:熵用于衡量数据不确定性,条件熵则计算在特定特征条件下目标变量的不确定性。通过贷款数据集示例展示了熵和条件熵的具体计算方法。 信息增益:定义为数据集熵与条件熵的差值,用于评估特征对分类的重要性。信息增益越大,特征区分能力越强。 ID3算法:基于信息增益的决策树构建方法,递归选择信息增益最大的特征作为节点,逐步生成决策树。文章通过年龄、工作等特征的计算示例,说明了如何通过信息增益选择最优分割特征。 核心思想是通过量化特征的信息贡献度,自动构建高效的分类决策树
2025-07-26 22:45:40
478
1
原创 【王树森推荐系统】推荐系统涨指标的方法05:特殊用户人群
这节课的内容是特殊对待特殊的用户人群,比如新用户和低活用户。具体介绍3大类方法:1. 构造特殊内容池,用于特殊用户人群的召回。2. 使用特殊排序策略,保护特殊用户。3. 使用特殊的排序模型,消除模型预估的偏差。
2025-07-24 23:52:19
902
原创 【代码随想录刷题记录】1. 数组
本文总结了数组相关的几种算法技巧:1)二分查找的关键在于确定check条件如何影响红蓝边界;2)移除元素的三种解法:暴力移动、库函数和双指针重建数组;3)有序数组平方的暴力法和双指针法;4)长度最小子数组的双指针解法。着重分析了各方法的核心思想、边界条件和实现细节,强调理解算法本质比简单记忆更重要。
2025-07-20 11:14:26
402
原创 【王树森推荐系统】推荐系统涨指标的方法04:多样性
这节课的内容是通过提升推荐物品的多样性为推荐系统涨指标。在召回、粗排、精排三个阶段,均有提升多样性的方法。在召回阶段,可以通过添加噪声、随机选取用户行为序列等方式提升双塔模型、I2I的多样性。在排序阶段,结合兴趣分数与多样性分数共同给候选物品排序。
2025-07-19 20:21:59
812
原创 【王树森推荐系统】推荐系统涨指标的方法03:排序模型
这节课的内容是通过改进粗排和精排模型涨指标。这节课的内容分5部分:1. 精排模型的改进2. 粗排模型的改进3. 用户行为序列建模4. 在线学习5. 老汤模型
2025-07-15 11:20:55
1398
原创 【王树森推荐系统】推荐系统涨指标的方法02:召回
这节课的内容是推荐系统涨指标的方法。具体讲解如何通过改进召回模型(retrieval models)来提升推荐系统的核心指标。这节课的内容分三部分:双塔模型、Item-to-Item (I2I)、还有小众的召回模型(比如PDN、Deep Retrieval、SINE、M2GRL)。
2025-07-15 09:19:06
678
原创 【王树森推荐系统】推荐系统涨指标的方法01:概述
这节课和后面的几节课的内容是推荐系统涨指标的方法。这节课先回顾推荐系统的评价指标,尤其是LT7和LT30。后面的课程会分为5部分:1. 改进召回模型和添加新的召回模型。2. 改进粗排和精排模型。3. 提升召回、粗排、精排中的多样性。4. 特殊对待新用户、低活用户等特殊人群。5. 利用关注、转发、评论这三种交互行为来提升指标。
2025-07-15 08:44:21
358
原创 【王树森推荐系统】物品冷启05:流量调控
流量调控是物品冷启动最重要的一环,直接影响作者发布指标。流量调控的发展通常会经历这几个阶段:1. 在推荐结果中强插新笔记。2. 对新笔记做提权(boost)。3. 通过提权,对新笔记做保量。4. 差异化保量。
2025-07-14 20:31:02
1021
原创 【王树森推荐系统】物品冷启04:Look-Alike 召回
这节课继续介绍物品冷启动。Look-Alike 是一种召回通道,对冷启很有效。Look-Alike 适用于发布一段时间、但是点击次数不高的物品。物品从发布到热门,主要的透出渠道会经历三个阶段:1. 类目召回、聚类召回。它们是基于内容的召回通道,适用于刚刚发布的物品。2. Look-Alike 召回。它适用于有点击,但是点击次数不高的物品。3. 双塔、ItemCF、Swing 等等。它们是基于用户行为的召回通道,适用于点击次数较高的物品。
2025-07-14 19:48:58
340
原创 【王树森推荐系统】聚类召回
这节课继续讲解物品冷启的召回。聚类召回是基于物品内容的召回通道。它假设如果用户喜欢一个物品,那么用户会喜欢内容相似的其他物品。使用聚类召回,需要事先训练一个多模态神经网络,将笔记图文表征为向量,并对向量做聚类,然后建索引。
2025-07-14 10:39:10
836
原创 【王树森推荐系统】物品冷启02:简单的召回通道
这节课的内容是物品冷启动 (item cold start) 中的召回。冷启动召回的难点是缺少用户交互,还没学好笔记 ID embedding,导致双塔模型效果不好。而且缺少用户交互会导致 ItemCF 不适用。
2025-07-14 10:11:02
608
原创 【王树森推荐系统】物品冷启01:优化目标 & 评价指标
物品冷启动指的是如何对新发布的物品做分发。优化物品冷启动在小红书这样的 User-Generated Content (UGC) 平台尤为重要,这是因为新物品数量巨大,内容质量良莠不齐,分发非常困难。
2025-07-14 09:36:12
557
原创 【王树森推荐系统】重排05:DPP 多样性算法(下)
行列式点过程 (determinantal point process, DPP) 是一种经典的机器学习方法,在 1970's 年代提出,在 2000 年之后有快速的发展。DPP 是目前推荐系统重排多样性公认的最好方法。这节课介绍DPP及其再推荐系统重排中的应用。求解DPP是比较困难的,需要计算行列式很多次,而计算行列式需要矩阵分解,代价很大。这节课介绍Hulu论文中的算法,可以用较小的代价求解DPP。
2025-07-13 16:24:39
956
原创 【王树森推荐系统】重排04:DPP 多样性算法(上)
行列式点过程 (determinantal point process, DPP) 是一种经典的机器学习方法,在 1970's 年代提出,在 2000 年之后有快速的发展。DPP 是目前推荐系统重排多样性公认的最好方法。DPP 的数学比较复杂,这节课先介绍数学基础,下节课再介绍它在推荐系统的应用。这节课的内容主要是超平行体、超平行体的体积、行列式与体积的关系。
2025-07-13 15:26:36
1037
原创 【王树森推荐系统】重排03:业务规则约束下的多样性算法
推荐系统有很多业务规则,比如不能连续出多篇某种类型的物品、某两种类型的物品笔记间隔多少。这些业务规则应用在重排阶段,可以与 MMR、DPP 等多样性算法相结合。
2025-07-13 09:58:40
375
原创 【王树森推荐系统】重排02:MMR 多样性算法(Maximal Marginal Relevance)
这节课介绍推荐系统和搜索引擎重排中常用的 Maximal Marginal Relevance (MMR),它根据精排打分和物品相似度,从 n 个物品中选出 k 个价值高、且多样性好的物品。这节课还介绍滑动窗口 (sliding window),它可以与 MMR、DPP 等多样性算法结合,实践中滑动窗口的效果更优。
2025-07-13 09:40:29
819
原创 【王树森推荐系统】重排01:物品相似性的度量、提升多样性的方法
这节课和后面几节课的内容是推荐系统中的多样性。如果多样性做得好,可以显著提升推荐系统的核心业务指标。这节课的内容分两部分:1. 物品相似性的度量。可以用物品标签或向量表征度量物品的相似性。最好的方法是基于图文内容的向量表征,比如 CLIP 方法。2. 提升多样性的方法。在推荐的链路上,在粗排和精排的后处理阶段,综合排序模型打分和多样性分数做选择。
2025-07-13 09:08:09
1006
原创 【王树森推荐系统】行为序列03:SIM模型(长序列建模)
这节课继续讲解推荐系统中的用户行为序列建模。这节课介绍 SIM 模型,它的主要目的是保留用户的长期兴趣。SIM 的原理是对用户行为序列做快速筛选,缩短序列长度,使得DIN可以用于长序列。
2025-07-13 00:14:42
1113
原创 【王树森推荐系统】行为序列02:DIN模型(注意力机制)
上节课介绍了用户的 LastN 序列特征。这节课介绍 DIN 模型,它是对 LastN 序列建模的一种方法,效果优于简单的平均。DIN 的本质是注意力机制(attention)。
2025-07-12 21:13:22
726
原创 【王树森推荐系统】行为序列01:用户历史行为序列建模
用户最近 n 次点击、点赞、收藏、转发等行为都是推荐系统中重要的特征,可以帮助召回和排序变得更精准。这节课介绍最简单的方法——对用户行为取简单的平均,作为特征输入召回、排序模型。
2025-07-12 20:53:04
483
原创 【王树森推荐系统】特征交叉04:SENet 和 Bilinear 交叉
这节课介绍几种方法:1. SENet 是计算机视觉中的一种技术,可以用在推荐系统中对特征做动态加权。2. 双线性(bilinear)特征交叉可以提升排序模型的表现。有很多种 bilinear 交叉的方法。3. FiBiNet 是将 SENet 与 Bilinear 模型结合。
2025-07-12 11:09:07
1188
原创 【王树森推荐系统】特征交叉03:LHUC (PPNet)
这节课介绍 LHUC 这种神经网络结构,可以用于精排。LHUC 的起源是语音识别,后来被应用到推荐系统,快手将其称为 PPNet,现在已经在业界广泛落地。
2025-07-12 09:28:35
636
原创 【王树森推荐系统】特征交叉02:DCN 深度交叉网络
Deep & Cross Networks (DCN) 译作“深度交叉网络”,可以用于召回双塔模型、粗排三塔模型、精排模型。DCN 由一个深度网络和一个交叉网络组成,交叉网络的基本组成单元是交叉层 (Cross Layer)。这节课最重点的部分就是交叉层。
2025-07-12 09:07:24
649
原创 【王树森推荐系统】特征交叉01:Factorized Machine (FM) 因式分解机
线性模型对输入的特征取加权和,作为对目标的预估。如果先做特征交叉,再用线性模型,通常可以取得更好的效果。如果做二阶特征交叉,那么参数量为O(特征数量平方),计算量大,而且容易造成过拟合。因式分解机(Factorized Machine, FM)用低秩矩阵分解的方式降低参数量,加速计算。任何可以用线性模型(比如线性回归、逻辑回归)解决的问题,都可以用 FM 解决。
2025-07-10 09:38:02
973
原创 【王树森推荐系统】排序02:Multi-gate Mixture-of-Experts (MMoE)
排序02:Multi-gate Mixture-of-Experts (MMoE)
2025-07-09 09:58:40
323
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅