自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Swift's Blog

Swift的个人博客

  • 博客(260)
  • 资源 (1)
  • 收藏
  • 关注

原创 COBRA详解

稀疏ID可以唯一表示item,有很好的区分性,但丧失了对item的细粒度信息刻画。纯文本可以准确可以item属性,但构造成prompt太长,套入到LLM中会导致资源消耗过大。那么如何结合两者的优点呢?COBRA首先根据codebook生成item的稀疏ID,该ID可以理解为item的大类别。既不过于精细,像unique id,又不过于宽泛。然后将ID序列输入到Transformer Decoder中预测稠密向量。

2025-04-03 01:54:43 725

原创 基于特征函数的数据蒸馏方法

本篇是CVPR满分作文,聚焦于数据蒸馏工作,创新点在于将数据合成问题建模成对抗性的minmax优化问题。more具体而言,本文引入了基于特征函数的分布差异度量方法,该方法能够完整地刻画一个分布的所有信息(相位和幅度)。利用特征函数的性质,最小化合成数据与真实数据的分布差异实现仿真,优化采样策略来最大化两者分布差异实现多样性和鲁棒性。

2025-04-02 01:24:54 288

原创 VAE讲解

这段时间看了VAE的有关知识,但网上关于VAE的讲解较为理论复杂,我这里就记录一下自己的想法了。参考变分自编码器VAE:原来是这么一回事 | 附开源代码 - 知乎 (zhihu.com)Understanding Variational Autoencoders (VAEs) | by Joseph Rocca | Towards Data SciencePytorch实现: VAE | DaNing的博客 (adaning.github.io)变分自编码器入门 | DaNing的

2025-03-31 01:01:34 1010

原创 自定义CUDA算子融合实现模型推理加速

对模型进行推理加速的最常用方法就是算子融合,这里用个简单demo记录下:more。

2025-03-31 00:55:10 364

原创 有限预算分配下的01背包问题

将上述业务问题抽象成01背包问题就是,在背包容量限制下的物品价值最大化。但传统的背包问题对应的是给同一个用户发多张券,而营销场景则是给多个用户分别只发一张券,相当于二维化传统背包问题了。备注:上述代码实现的时空复杂度过高,一天的预算都有几个亿,不可能初始化这么大的数组,且寻找最优解耗时也长。有限预算的权益分配本质上是个升级版的背包问题。表示券的总数,是个枚举值。

2025-03-29 04:30:44 716

原创 用tensorboard支持pytorch训练可视化

在工作用了tensorboard来可视化模型训练过程后,发现还挺香的。另外pytorch也正式支持tensorboard了,这里记录一下。more。

2025-03-22 03:23:38 293

原创 测不准关系

在物理学中,测不准关系(Uncertainty Principle),又称为海森堡不确定性原理(Heisenberg Uncertainty Principle),是由德国物理学家维尔纳·海森堡于1927年提出的量子力学的一个基本原理。这个原理表明,在量子尺度上,某些对易不为零的物理量(比如位置和动量)是不可能同时被精确测量的。)的不确定度就会变得非常大,反之亦然。这不是因为测量技术上的限制,而是量子现象固有的特性。测不准关系是量子力学的一个基本特征,它对我们理解微观世界的本质有着深远的影响。

2025-03-14 14:03:14 821

原创 SGM: Sequence Generation Model for Multi-Label Classification

为了建模多标签之间的依赖关系,本篇工作用序列生成的方式来解决该问题。more当前label的预测不仅依赖于输入上下文,也依赖于已输出的所有label。

2025-03-09 03:31:02 770

原创 DCN讲解

DCN是DeepFM的升级版,后者是只能做二阶交叉特征,随着阶数上升,模型复杂度大幅提高,且FM网络层较浅,表达能力有限。google团队通过构建深度交叉网络来自动进行特征的高阶交叉,且时空复杂度均为线性增长,极大提升了模型性能。more。

2025-03-03 00:06:17 190

原创 PEPNet

鉴于PEPNet已经是多场景、多任务建模的baseline,这里有必要详细讲解一下。more。

2025-02-28 02:43:03 795

原创 运筹求解的最优点选择

讲述了线上运筹发放红包的流程,但在实践中发现发券分布异常极端,倾向于发在两端,即要么最小面额(占绝大多数),要么最大面额。如果长期按照这种分布发放,将会极大影响用户核销体验以及平台订单的持久增长。上述问题迫使我们思考,除了满足预算约束外,我们的量价模型还应该具备哪些能力?more给出了答案:量价模型预估的核销率需满足单调递增和边际递减。

2025-02-20 02:12:33 722

原创 线上运筹优化公式推导

min−∑ijxijpijs.t.xij∈01∑jxij1∑ijxijcij≤Cmin−ij∑​xij​pij​s.t.xij​j∑​xij​ij∑​xij​cij​​∈011≤C​xijx_{ij}xij​表示是否给用户iii发放红包jjjpijp_{ij}pij​表示用户iii在红包jjj下的核销率,由量价模型预估产生c。

2025-01-15 19:25:09 533

原创 三体中的常见名词

费米悖论:一个关于外星文明存在的著名矛盾问题,由诺贝尔奖得主、物理学家恩里科·费米在 1950 年提出。它的核心问题是:如果宇宙中存在大量可能的外星文明,为什么我们还没有发现任何证据?洛希极限:当一个较小的天体(如卫星或彗星)接近一个较大的天体(如行星或恒星)时,如果距离小于某个临界值,较小的天体将因为较大的天体的潮汐力而被撕裂。幸存派:为“侵略者”三体人服务的人,希望在他们降临地球后,自己的后代能够生存下去(可以理解为汉奸)降临派:对人类的本性绝望的人群,他们认为人类该被彻底毁灭,由三体人来重建地球。

2025-01-14 20:16:30 512

原创 负采样后的CTR预估矫正

在搜广推场景中,正负样本不平衡是个普遍现象。通常做法是对负样本进行降采样,但采样后训练的模型预估概率会比实际概率高估。more举例来说,线上真实样本的CTR是0.001,即正负样本比为1:1000。现对负样本降采样w0.01,即采样后正负样本比为1:10,那么训练后的模型预估CTR为0.1,出现高估的情况。

2025-01-06 00:55:28 793

原创 DQN讲解

最近我组有同学在探索用RL落地营销场景的可能性,借此机会学习下RL。more。

2024-12-09 03:16:00 861

原创 python2.7安装tensorflow1.x

当前tensorflow官方已不再提供1.x版本的pip安装,尝试了网上多种解决方案后,最简单的就是换源。

2024-12-08 18:57:36 113

原创 Uplift Tree建模

决策树构建流程:more。

2024-11-25 01:57:47 1106

原创 tensorflow获取tensor形状

【代码】tensorflow获取tensor形状。

2024-11-12 18:08:21 158

原创 tf1.x实现张量的梯度反转

【代码】tf1.x实现张量的梯度反转。

2024-10-17 22:02:05 236

原创 DANN & GRL

域自适应是指在目标域与源域的数据分布不同但任务相同下的迁移学习,从而将模型在源域上的良好性能迁移到目标域上,极大地缓解目标域标签缺失严重导致模型性能受损的问题。介绍一篇经典工作more。

2024-09-24 03:30:01 592

原创 Uplift Model离线评估指标

uplift建模难点在于无法获得个体的ground truth,因为它是反事实的。只能通过构造treatment和control两组镜像人群,对比两组人群的转化增量,来实现模型性能的评估。more。

2024-09-16 17:11:28 1121 2

原创 M1 Mac安装Homebrew

M1的MacBook安装Homebrew方法:

2024-09-09 18:53:32 354

原创 点沙成硅的流程

将一粒沙子转化为芯片的过程是一个复杂而精密的制造流程。芯片制造始于原材料硅的提纯,然后经过多步骤的工艺,最终变成用于计算机、手机等设备的半导体芯片。

2024-08-19 11:42:24 390

原创 U-Net原理及代码实现

U-Net是医疗领域进行语义分割的利器,随着AIGC的爆火,U-Net已成为Diffusion Model的backbone,有必须详细记录下。more。

2024-08-08 03:13:45 805 1

原创 DSSM双塔特征交互

传统的DSSM双塔无法在早期进行user和item侧的特征交互,这在一定程度上降低了模型性能。我们想要对双塔模型进行细粒度的特征交互,同时又不失双塔模型离线建向量索引的解耦性。下面介绍两篇这方面的工作。more。

2024-07-09 01:42:56 1133

原创 Learn To Rank

在信息检索中,给定一个query,搜索引擎召回一系列相关的Documents,然后对这些Documents进行排序,最后将Top N的Documents输出。more排序问题最关注的是各Documents之间的相对顺序关系,而不是各个Documents的预测分最准确。

2024-07-07 19:50:15 707

原创 两种神经网络参数初始化方法

重点介绍一下Xavier和Kaiming初始化:more。

2024-06-21 01:59:24 480

原创 LLM Inference Performance Engineering

https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices

2024-06-12 01:17:05 453

原创 LLaMA2详解

llama系列训练和推理都是right padding:more。

2024-05-24 01:57:15 483

原创 GPU利用率

英伟达官方的GPU利用率的定义如下:GPUUtilrate=number of active SMnumber of total SM×100%GPU Util rate = \frac{number \ of \ active \ SM}{number \ of \ total \ SM} \times 100\%GPUUtilrate=number of total SMnumber of active SM​×100%上述代码片段将在单个流多处理器(SM)上启动指定的内核(线程)。根据常规理

2024-05-20 01:42:19 1572

原创 Attention Sink

论文发现自回归LLM存在的一个有趣现象:对于输入文本最靠前的少量几个token,无论它们在语义上与语言建模任务的相关性如何,大量的注意力分数都会分配给他们,如下图所示:more模型的前两层还能保持attention score更多分配给当前token附近位置的特性,而在其他层,靠前的几个token都会接受到大量的注意力。尽管这些token在语义上很可能并没有什么重要性,但它们却聚集了大量的注意力分数。出现这个现象的原因就是softmax操作。

2024-05-12 16:50:44 753

原创 RAG讲解

现有的LLM已经具备了理解、生成、逻辑和记忆能力,RAG(Retrieval Augmented Generation)则是为其套上外挂,使LLM能够访问训练数据来源之外的权威知识库,并生成领域特定的内容,而无须重新训练模型。more。

2024-05-12 15:04:25 376

原创 从loss角度理解LLM涌现能力

本文从预训练loss角度观察了模型涌现能力是如何发生的。其结论也给业界评估模型在下游任务上的性能提供了全新的视角,即预训练loss,而不是模型参数量、数据量、训练计算量。但本文并未从理论角度解释loss与涌现能力的关系,更多地是根据后验进行启发式分析,也未给出2.2的合理说明。但DL一直这么玄学,不是吗?

2024-05-12 02:12:12 1128

原创 SwiGLU激活函数

SwiGLU激活函数已经成为LLM的标配了。

2024-05-09 02:08:51 1638

原创 模型训练的显存占用分布

训练过程中,显存消耗主要有模型参数、梯度、optimizer状态值和中间激活值。

2024-05-05 17:41:26 317

原创 FP16与BF16区别

more二者都是占用16bit空间。模型训练时使用BF16和FP16都可以降低内存使用和传输量,提高训练效率。

2024-05-05 17:39:15 2057

转载 现代GPU内存分级结构

要实现CUDA高性能编程,就必须对GPU内存结构有深刻的了解。more。

2024-04-22 01:04:25 169

原创 显存大小&显存位宽&显存频率

more当你购买显卡的时候,需要根据你的应用场景,综合考虑显存大小和显存带宽。

2024-04-09 22:06:10 577

原创 转化延迟预估

转化数据延迟久,但实时反馈至关重要涉及到模型预估准度,进而影响客户成本。more现状:超过12h的转化被视为负例,12h以内的为正例,这样会导致模型低估。P转化∣点击未转化点击延迟≤12h的转化延迟12h的转化延迟≤12h的转化​。

2024-04-09 01:01:24 511

原创 Gumbel Softmax

Argmax是不可求导的,Gumbel Softmax允许模型能从网络层的离散分布(比如类别分布categorical distribution)中稀疏采样的这个过程变得可微,从而允许反向传播时可以用梯度更新模型参数。more。

2024-04-08 01:15:37 439

多界面传值

通过代理协议实现多个界面的传值

2017-08-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除