自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(133)
  • 收藏
  • 关注

原创 【王树森深度强化学习】价值学习 Value-Based Reinforcement Learning (2/5)

这节课讲Value-Based Reinforcement Learning (价值学习)。这节课的主要内容是Deep Q Network (DQN)和Temporal Different (TD)算法。

2025-11-02 11:15:53 986

原创 【王树森深度强化学习】基本概念 Deep Reinforcement Learning (1/5)

本文介绍了强化学习的基本概念和关键术语。主要内容包括:1)随机变量及其概率分布;2)专业术语如状态(s)、动作(a)、策略(π)、奖励(R)和状态转移(p);3)强化学习的两个随机性来源:策略函数和状态转移;4)回报(Ut)和折扣回报的概念,强调未来奖励的价值递减。文章通过游戏示例(如马里奥)阐述了agent与环境的交互过程,包括观测状态、执行动作、获得奖励和状态转移等环节。这些基础概念为理解强化学习算法提供了理论框架。

2025-10-30 21:27:43 851

原创 【菜菜sklearn机器学习】1.决策树

决策树是一种非参数监督学习方法,通过树状结构进行决策,适用于分类和回归问题。其核心是通过优化不纯度指标(如基尼系数或信息熵)来选择最佳节点和分支。sklearn中的DecisionTreeClassifier提供了criterion、random_state、splitter等参数来控制模型行为,其中剪枝参数(max_depth、min_samples_leaf等)能有效防止过拟合。实际应用中,决策树容易实现但可能存在不稳定性,可通过随机特征选择和集成学习提升性能。文章以红酒数据集为例,详细演示了决策树的建

2025-07-29 08:38:20 1161

原创 【深度之眼机器学习笔记】04-01-决策树简介、熵,04-02-条件熵及计算举例,04-03-信息增益、ID3算法

本文介绍了决策树构建中的关键概念与方法: 熵与条件熵:熵用于衡量数据不确定性,条件熵则计算在特定特征条件下目标变量的不确定性。通过贷款数据集示例展示了熵和条件熵的具体计算方法。 信息增益:定义为数据集熵与条件熵的差值,用于评估特征对分类的重要性。信息增益越大,特征区分能力越强。 ID3算法:基于信息增益的决策树构建方法,递归选择信息增益最大的特征作为节点,逐步生成决策树。文章通过年龄、工作等特征的计算示例,说明了如何通过信息增益选择最优分割特征。 核心思想是通过量化特征的信息贡献度,自动构建高效的分类决策树

2025-07-26 22:45:40 478 1

原创 【王树森推荐系统】推荐系统涨指标的方法06:交互行为(关注、转发、评论)

这节课的内容是利用关注、转发、评论这三种交互行为给推荐系统涨指标。

2025-07-25 10:15:57 1091

原创 【王树森推荐系统】推荐系统涨指标的方法05:特殊用户人群

这节课的内容是特殊对待特殊的用户人群,比如新用户和低活用户。具体介绍3大类方法:1. 构造特殊内容池,用于特殊用户人群的召回。2. 使用特殊排序策略,保护特殊用户。3. 使用特殊的排序模型,消除模型预估的偏差。

2025-07-24 23:52:19 902

原创 【代码随想录刷题记录】1. 数组

本文总结了数组相关的几种算法技巧:1)二分查找的关键在于确定check条件如何影响红蓝边界;2)移除元素的三种解法:暴力移动、库函数和双指针重建数组;3)有序数组平方的暴力法和双指针法;4)长度最小子数组的双指针解法。着重分析了各方法的核心思想、边界条件和实现细节,强调理解算法本质比简单记忆更重要。

2025-07-20 11:14:26 402

原创 【深度之眼机器学习】02-01-线性回归简介、数学符号、假设函数、损失函数、代价函数

口语化个人向笔记

2025-07-20 00:51:14 485

原创 【王树森推荐系统】推荐系统涨指标的方法04:多样性

这节课的内容是通过提升推荐物品的多样性为推荐系统涨指标。在召回、粗排、精排三个阶段,均有提升多样性的方法。在召回阶段,可以通过添加噪声、随机选取用户行为序列等方式提升双塔模型、I2I的多样性。在排序阶段,结合兴趣分数与多样性分数共同给候选物品排序。

2025-07-19 20:21:59 812

原创 【王树森推荐系统】推荐系统涨指标的方法03:排序模型

这节课的内容是通过改进粗排和精排模型涨指标。这节课的内容分5部分:1. 精排模型的改进2. 粗排模型的改进3. 用户行为序列建模4. 在线学习5. 老汤模型

2025-07-15 11:20:55 1398

原创 【王树森推荐系统】推荐系统涨指标的方法02:召回

这节课的内容是推荐系统涨指标的方法。具体讲解如何通过改进召回模型(retrieval models)来提升推荐系统的核心指标。这节课的内容分三部分:双塔模型、Item-to-Item (I2I)、还有小众的召回模型(比如PDN、Deep Retrieval、SINE、M2GRL)。

2025-07-15 09:19:06 678

原创 【王树森推荐系统】推荐系统涨指标的方法01:概述

这节课和后面的几节课的内容是推荐系统涨指标的方法。这节课先回顾推荐系统的评价指标,尤其是LT7和LT30。后面的课程会分为5部分:1. 改进召回模型和添加新的召回模型。2. 改进粗排和精排模型。3. 提升召回、粗排、精排中的多样性。4. 特殊对待新用户、低活用户等特殊人群。5. 利用关注、转发、评论这三种交互行为来提升指标。

2025-07-15 08:44:21 358

原创 【王树森推荐系统】物品冷启05:流量调控

流量调控是物品冷启动最重要的一环,直接影响作者发布指标。流量调控的发展通常会经历这几个阶段:1. 在推荐结果中强插新笔记。2. 对新笔记做提权(boost)。3. 通过提权,对新笔记做保量。4. 差异化保量。

2025-07-14 20:31:02 1021

原创 【王树森推荐系统】物品冷启04:Look-Alike 召回

这节课继续介绍物品冷启动。Look-Alike 是一种召回通道,对冷启很有效。Look-Alike 适用于发布一段时间、但是点击次数不高的物品。物品从发布到热门,主要的透出渠道会经历三个阶段:1. 类目召回、聚类召回。它们是基于内容的召回通道,适用于刚刚发布的物品。2. Look-Alike 召回。它适用于有点击,但是点击次数不高的物品。3. 双塔、ItemCF、Swing 等等。它们是基于用户行为的召回通道,适用于点击次数较高的物品。

2025-07-14 19:48:58 340

原创 【王树森推荐系统】聚类召回

这节课继续讲解物品冷启的召回。聚类召回是基于物品内容的召回通道。它假设如果用户喜欢一个物品,那么用户会喜欢内容相似的其他物品。使用聚类召回,需要事先训练一个多模态神经网络,将笔记图文表征为向量,并对向量做聚类,然后建索引。

2025-07-14 10:39:10 836

原创 【王树森推荐系统】物品冷启02:简单的召回通道

这节课的内容是物品冷启动 (item cold start) 中的召回。冷启动召回的难点是缺少用户交互,还没学好笔记 ID embedding,导致双塔模型效果不好。而且缺少用户交互会导致 ItemCF 不适用。

2025-07-14 10:11:02 608

原创 【王树森推荐系统】物品冷启01:优化目标 & 评价指标

物品冷启动指的是如何对新发布的物品做分发。优化物品冷启动在小红书这样的 User-Generated Content (UGC) 平台尤为重要,这是因为新物品数量巨大,内容质量良莠不齐,分发非常困难。

2025-07-14 09:36:12 557

原创 【王树森推荐系统】重排05:DPP 多样性算法(下)

行列式点过程 (determinantal point process, DPP) 是一种经典的机器学习方法,在 1970's 年代提出,在 2000 年之后有快速的发展。DPP 是目前推荐系统重排多样性公认的最好方法。这节课介绍DPP及其再推荐系统重排中的应用。求解DPP是比较困难的,需要计算行列式很多次,而计算行列式需要矩阵分解,代价很大。这节课介绍Hulu论文中的算法,可以用较小的代价求解DPP。

2025-07-13 16:24:39 956

原创 【王树森推荐系统】重排04:DPP 多样性算法(上)

行列式点过程 (determinantal point process, DPP) 是一种经典的机器学习方法,在 1970's 年代提出,在 2000 年之后有快速的发展。DPP 是目前推荐系统重排多样性公认的最好方法。DPP 的数学比较复杂,这节课先介绍数学基础,下节课再介绍它在推荐系统的应用。这节课的内容主要是超平行体、超平行体的体积、行列式与体积的关系。

2025-07-13 15:26:36 1037

原创 【王树森推荐系统】重排03:业务规则约束下的多样性算法

推荐系统有很多业务规则,比如不能连续出多篇某种类型的物品、某两种类型的物品笔记间隔多少。这些业务规则应用在重排阶段,可以与 MMR、DPP 等多样性算法相结合。

2025-07-13 09:58:40 375

原创 【王树森推荐系统】重排02:MMR 多样性算法(Maximal Marginal Relevance)

这节课介绍推荐系统和搜索引擎重排中常用的 Maximal Marginal Relevance (MMR),它根据精排打分和物品相似度,从 n 个物品中选出 k 个价值高、且多样性好的物品。这节课还介绍滑动窗口 (sliding window),它可以与 MMR、DPP 等多样性算法结合,实践中滑动窗口的效果更优。

2025-07-13 09:40:29 819

原创 【王树森推荐系统】重排01:物品相似性的度量、提升多样性的方法

这节课和后面几节课的内容是推荐系统中的多样性。如果多样性做得好,可以显著提升推荐系统的核心业务指标。这节课的内容分两部分:1. 物品相似性的度量。可以用物品标签或向量表征度量物品的相似性。最好的方法是基于图文内容的向量表征,比如 CLIP 方法。2. 提升多样性的方法。在推荐的链路上,在粗排和精排的后处理阶段,综合排序模型打分和多样性分数做选择。

2025-07-13 09:08:09 1006

原创 【王树森推荐系统】行为序列03:SIM模型(长序列建模)

这节课继续讲解推荐系统中的用户行为序列建模。这节课介绍 SIM 模型,它的主要目的是保留用户的长期兴趣。SIM 的原理是对用户行为序列做快速筛选,缩短序列长度,使得DIN可以用于长序列。

2025-07-13 00:14:42 1113

原创 【王树森推荐系统】行为序列02:DIN模型(注意力机制)

上节课介绍了用户的 LastN 序列特征。这节课介绍 DIN 模型,它是对 LastN 序列建模的一种方法,效果优于简单的平均。DIN 的本质是注意力机制(attention)。

2025-07-12 21:13:22 726

原创 【王树森推荐系统】行为序列01:用户历史行为序列建模

用户最近 n 次点击、点赞、收藏、转发等行为都是推荐系统中重要的特征,可以帮助召回和排序变得更精准。这节课介绍最简单的方法——对用户行为取简单的平均,作为特征输入召回、排序模型。

2025-07-12 20:53:04 483

原创 【王树森推荐系统】特征交叉04:SENet 和 Bilinear 交叉

这节课介绍几种方法:1. SENet 是计算机视觉中的一种技术,可以用在推荐系统中对特征做动态加权。2. 双线性(bilinear)特征交叉可以提升排序模型的表现。有很多种 bilinear 交叉的方法。3. FiBiNet 是将 SENet 与 Bilinear 模型结合。

2025-07-12 11:09:07 1188

原创 【王树森推荐系统】特征交叉03:LHUC (PPNet)

这节课介绍 LHUC 这种神经网络结构,可以用于精排。LHUC 的起源是语音识别,后来被应用到推荐系统,快手将其称为 PPNet,现在已经在业界广泛落地。

2025-07-12 09:28:35 636

原创 【王树森推荐系统】特征交叉02:DCN 深度交叉网络

Deep & Cross Networks (DCN) 译作“深度交叉网络”,可以用于召回双塔模型、粗排三塔模型、精排模型。DCN 由一个深度网络和一个交叉网络组成,交叉网络的基本组成单元是交叉层 (Cross Layer)。这节课最重点的部分就是交叉层。

2025-07-12 09:07:24 649

原创 【王树森推荐系统】特征交叉01:Factorized Machine (FM) 因式分解机

线性模型对输入的特征取加权和,作为对目标的预估。如果先做特征交叉,再用线性模型,通常可以取得更好的效果。如果做二阶特征交叉,那么参数量为O(特征数量平方),计算量大,而且容易造成过拟合。因式分解机(Factorized Machine, FM)用低秩矩阵分解的方式降低参数量,加速计算。任何可以用线性模型(比如线性回归、逻辑回归)解决的问题,都可以用 FM 解决。

2025-07-10 09:38:02 973

原创 【王树森推荐系统】排序06:粗排模型

排序06:粗排模型

2025-07-09 22:39:34 1124

原创 【王树森推荐系统】排序05:排序模型的特征

排序05:排序模型的特征

2025-07-09 20:17:33 879

原创 【王树森推荐系统】排序04:视频播放建模

排序04:视频播放建模

2025-07-09 19:04:34 635

原创 【王树森推荐系统】排序03:预估分数融合

排序03:预估分数融合

2025-07-09 10:45:47 930

原创 【王树森推荐系统】排序02:Multi-gate Mixture-of-Experts (MMoE)

排序02:Multi-gate Mixture-of-Experts (MMoE)

2025-07-09 09:58:40 323

原创 【王树森推荐系统】排序01:多目标模型

排序01:多目标模型

2025-07-09 09:27:23 764

原创 【王树森推荐系统】召回12:曝光过滤 & Bloom Filter

召回12:曝光过滤 & Bloom Filter

2025-07-08 23:03:50 803

原创 【王树森推荐系统】召回11:地理位置召回、作者召回、缓存召回

召回11:地理位置召回、作者召回、缓存召回

2025-07-08 21:42:32 863

原创 【王树森推荐系统】召回10:Deep Retrieval 召回

召回10:Deep Retrieval 召回

2025-07-08 17:03:21 2168

原创 【王树森推荐系统】召回09:双塔模型+自监督学习

召回09:双塔模型+自监督学习

2025-07-08 10:08:36 852

原创 【王树森推荐系统】召回08:双塔模型——线上服务、模型更新

召回08:双塔模型——线上服务、模型更新

2025-07-07 19:59:25 1084

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除