- 博客(285)
- 资源 (1)
- 收藏
- 关注
原创 EOM公式推导
在uplift建模中,除了AUUC、QINI指标,还有EOM。它是基于离线RCT模拟评估在线业务收益的指标,EOM越高,业务收益越高。根据概率论中对随机变量乘积期望的定义,两个指示函数。是该treatment的样本分布占比,在RCT样本中,用户被分配到干预组。表示运筹出一张券面额,如果实发面额。表示IPW,从而避免样本不均的影响。具有线性性,因此我们可以将期望。,这样即可模拟出在线业务收益。利用全期望定律,将期望写成。的过程是独立于用户的特征。在营销场景的在线运筹中,记录下EOM的公式推导。
2025-10-10 20:34:45
560
原创 图像生成评估指标IS&FID
指标思想优点缺点IS用 KL 散度衡量单图置信度与整体多样性简单、计算快依赖 Inception,不能直接衡量与真实分布的差距FID在特征空间拟合高斯,计算两分布差异更符合人类感知,能比较生成与真实数据需要更多样本,假设近似可能偏差IS 高 → 图像清晰且类别多样FID 低 → 生成分布接近真实分布。
2025-09-15 11:14:19
759
原创 ε-greedy策略
是强化学习中最重要、最基础的概念之一,它完美地解决了与之间的权衡问题。ε-greedy策略的流程如下:fill:#333;color:#333;color:#333;fill:none;是否开始生成一个随机数0<=rand<=1rand<ε?进行探索:完全随机选择一个动作进行利用:选择当前Q值最高的动作更新状态和Q值。
2025-09-10 17:23:40
1243
原创 馈电油耗讲解
馈电油耗:指在车辆电池电量消耗殆尽(进入电量维持模式)后,汽车仅依靠发动机+能量回收(刹车发电)工作时的百公里油耗。插电混动在电量充足时,主要靠电驱动,油耗很低甚至为零。但当电池电量降到设定的最低SOC(荷电状态)后,车辆必须依赖发动机驱动,同时少量用电机辅助。这时的油耗,就是馈电油耗。馈电油耗 = 插混车没电之后当作燃油车开时的百公里油耗。
2025-08-31 23:51:58
513
原创 Enhancing CTR Prediction with De-correlated Expert Networks
本文探索了专家网络的差异性对模型性能的影响,本质上是种bagging思想,从各个语义空间上提升模型的表达能力。more。
2025-08-06 02:54:32
737
原创 模型预估打分对运筹跟踪的影响
在uplift建模中,模型离线指标(QINI、AUUC)提升并不意味着在线A/B实验的收益,因为在线运筹还需要λ约束。如果模型打分不满足单调增且roi边际递减,那么λ运筹求解会非常不稳定,导致线上发券偏高,毛利无法兜住。more下面用。
2025-08-04 00:04:44
605
原创 生成式召回-TIGER范式
TIGER是第一篇将Generative Retrieval 自回归生成方式应用于推荐系统的工作;它通过Semantic ID 和 Seq2Seq Transformer,突破embedding + ANN的传统限制;在冷启动、多样性、效率和泛化能力上展现强优势;适用于大规模推荐场景,尤其是content-rich、item海量、频繁上线新品的平台。
2025-07-27 23:20:07
1390
原创 离线运筹求解流程
基于,概述一下如何用二分搜索来运筹求解λ。more原问题∑imaxjpij−λcij是一个求解λ最优值的线性规划问题,其目标是找到使得目标函数最大化的λ。我们可以使用二分搜索来求解。
2025-07-13 04:21:04
955
原创 扭矩&马力
马力和扭矩是衡量发动机性能的两个核心指标,但它们的物理意义和对车辆性能的影响截然不同。家用车马力适中(如150PS)兼顾油耗。(超1,000PS)维持极速。
2025-07-06 20:10:23
407
原创 FLOPS、FLOP/s、TOPS概念
这个模型需要 1 TFLOP/s 的计算量,GPU 的峰值性能是 10 TFLOPS”是常见的术语,但它们有明确的区别和应用场景。“这个模型需要 1 TFLOPS”在计算性能和硬件指标中,
2025-06-29 23:29:27
1351
原创 光锥Light Cone
光锥是以某个事件为顶点,以光速传播形成的时空区域边界。设想一个时空中的事件EEE未来光锥(Future Light Cone)是从事件EEE向未来扩展的所有可能被你这次响指影响到的事件区域(以光速或更慢传播)。过去光锥(Past Light Cone)是能影响你打响指的这个事件的所有过去事件区域(信号从它们出发,以光速或更慢速度传到你这里)。光锥外部(Elsewhere)是那些你无法影响,也无法影响你的事件。因为它们之间的传播所需速度超过光速,不符合因果律。
2025-06-18 02:28:30
1588
原创 三体问题详解
从物理学角度,三体问题之所以不稳定,是因为三个天体在万有引力作用下相互作用,形成一个非线性耦合系统。我们可以从牛顿经典力学出发,列出具体的运动方程,并说明为何这个系统本质上是混沌的,无法得到一般解析解。more。
2025-06-09 03:24:52
1090
原创 对数正态分布LogNormal
分母的xxx是数学推导的必然结果,源于概率密度变换的雅可比行列式。它保证了fXxf_X(x)fXx是一个合法的概率密度函数(积分为1)。若替换为lnx\ln xlnx,会破坏分布的正确性。
2025-06-03 15:07:19
1377
原创 Zero-Inflated Log-Normal Loss
more针对这种数据分布,Google提出了ZILN Loss,用于更真实地拟合这类零膨胀、长尾的数据。LTV建模如下两个任务:用户是否付费、付多少费,分别对应上述两个问题。μσL1x0;
2025-06-03 03:29:59
1196
原创 策略梯度与Q-Learning的区别
策略梯度(Policy Gradient, PG)是强化学习中的一类直接优化策略的方法,通过梯度上升(Gradient Ascent)更新策略参数,以最大化期望回报。与Q-Learning等基于值函数的方法不同,PG直接对策略πθa∣sπθa∣s(参数为θ\thetaθ)进行优化,适用于连续动作空间或随机策略的场景。离散动作:策略网络输出离散动作的概率分布(如Softmax)。连续动作:策略网络输出高斯分布的参数(μσμσ),通过采样得到连续值。∇θJθE。
2025-04-27 03:21:11
1358
原创 线性代数-矩阵的秩
矩阵的秩本质上是其行或列向量的独立信息量的度量,决定了矩阵在变换中的“自由度”。理解秩有助于分析方程组、空间变换以及矩阵的稳定性等问题。
2025-04-21 22:48:05
4102
原创 赛睿鼠标设置宏
鼠标宏是一种自动化脚本,用于记录并重复执行一系列鼠标操作(如点击、移动、滚轮滚动等),以提高操作效率或实现复杂操作。它通常用于游戏、办公自动化、设计等领域。记录一下赛睿鼠标的宏设置。点击打开编辑器,然后点击启动,就开始录制按键。如果想关闭宏命令,则重新选择默认即可。选择按键之间无延迟,即可快速输入。选择要绑定宏命令的按键,这里以。保存并启动该宏命令。键可以看到自动化输入。
2025-04-21 02:24:24
1608
原创 IPW逆概率加权
IPW是个非常优雅的纠偏方法。下面介绍如何利用它来实现纠偏:moreτxμ1xμ0xτxEPY1−Y0∣xEPY∣W1XxEPY∣W0Xxμ1x−μ0xESTRPYW1∣XESCRPYW0∣Xμ1μ0τTRPY∣W1X⋅πPW1∣Xμ1⋅πCRPY∣W0。
2025-04-08 02:26:59
977
原创 COBRA详解
稀疏ID可以唯一表示item,有很好的区分性,但丧失了对item的细粒度信息刻画。纯文本可以准确可以item属性,但构造成prompt太长,套入到LLM中会导致资源消耗过大。那么如何结合两者的优点呢?COBRA首先根据codebook生成item的稀疏ID,该ID可以理解为item的大类别。既不过于精细,像unique id,又不过于宽泛。然后将ID序列输入到Transformer Decoder中预测稠密向量。
2025-04-03 01:54:43
1038
原创 基于特征函数的数据蒸馏方法
本篇是CVPR满分作文,聚焦于数据蒸馏工作,创新点在于将数据合成问题建模成对抗性的minmax优化问题。more具体而言,本文引入了基于特征函数的分布差异度量方法,该方法能够完整地刻画一个分布的所有信息(相位和幅度)。利用特征函数的性质,最小化合成数据与真实数据的分布差异实现仿真,优化采样策略来最大化两者分布差异实现多样性和鲁棒性。
2025-04-02 01:24:54
379
原创 VAE讲解
这段时间看了VAE的有关知识,但网上关于VAE的讲解较为理论复杂,我这里就记录一下自己的想法了。参考变分自编码器VAE:原来是这么一回事 | 附开源代码 - 知乎 (zhihu.com)Understanding Variational Autoencoders (VAEs) | by Joseph Rocca | Towards Data SciencePytorch实现: VAE | DaNing的博客 (adaning.github.io)变分自编码器入门 | DaNing的
2025-03-31 01:01:34
1228
原创 有限预算分配下的01背包问题
将上述业务问题抽象成01背包问题就是,在背包容量限制下的物品价值最大化。但传统的背包问题对应的是给同一个用户发多张券,而营销场景则是给多个用户分别只发一张券,相当于二维化传统背包问题了。备注:上述代码实现的时空复杂度过高,一天的预算都有几个亿,不可能初始化这么大的数组,且寻找最优解耗时也长。有限预算的权益分配本质上是个升级版的背包问题。表示券的总数,是个枚举值。
2025-03-29 04:30:44
816
原创 用tensorboard支持pytorch训练可视化
在工作用了tensorboard来可视化模型训练过程后,发现还挺香的。另外pytorch也正式支持tensorboard了,这里记录一下。more。
2025-03-22 03:23:38
442
原创 测不准关系
在物理学中,测不准关系(Uncertainty Principle),又称为海森堡不确定性原理(Heisenberg Uncertainty Principle),是由德国物理学家维尔纳·海森堡于1927年提出的量子力学的一个基本原理。这个原理表明,在量子尺度上,某些对易不为零的物理量(比如位置和动量)是不可能同时被精确测量的。)的不确定度就会变得非常大,反之亦然。这不是因为测量技术上的限制,而是量子现象固有的特性。测不准关系是量子力学的一个基本特征,它对我们理解微观世界的本质有着深远的影响。
2025-03-14 14:03:14
1242
原创 SGM: Sequence Generation Model for Multi-Label Classification
为了建模多标签之间的依赖关系,本篇工作用序列生成的方式来解决该问题。more当前label的预测不仅依赖于输入上下文,也依赖于已输出的所有label。
2025-03-09 03:31:02
898
原创 DCN讲解
DCN是DeepFM的升级版,后者是只能做二阶交叉特征,随着阶数上升,模型复杂度大幅提高,且FM网络层较浅,表达能力有限。google团队通过构建深度交叉网络来自动进行特征的高阶交叉,且时空复杂度均为线性增长,极大提升了模型性能。more。
2025-03-03 00:06:17
316
原创 运筹求解的最优点选择
讲述了线上运筹发放红包的流程,但在实践中发现发券分布异常极端,倾向于发在两端,即要么最小面额(占绝大多数),要么最大面额。如果长期按照这种分布发放,将会极大影响用户核销体验以及平台订单的持久增长。上述问题迫使我们思考,除了满足预算约束外,我们的量价模型还应该具备哪些能力?more给出了答案:量价模型预估的核销率需满足单调递增和边际递减。
2025-02-20 02:12:33
869
原创 线上运筹优化公式推导
min−∑ijxijpijs.t.xij∈01∑jxij1∑ijxijcij≤Cmin−ij∑xijpijs.t.xijj∑xijij∑xijcij∈011≤Cxijx_{ij}xij表示是否给用户iii发放红包jjjpijp_{ij}pij表示用户iii在红包jjj下的核销率,由量价模型预估产生c。
2025-01-15 19:25:09
661
原创 三体中的常见名词
费米悖论:一个关于外星文明存在的著名矛盾问题,由诺贝尔奖得主、物理学家恩里科·费米在 1950 年提出。它的核心问题是:如果宇宙中存在大量可能的外星文明,为什么我们还没有发现任何证据?洛希极限:当一个较小的天体(如卫星或彗星)接近一个较大的天体(如行星或恒星)时,如果距离小于某个临界值,较小的天体将因为较大的天体的潮汐力而被撕裂。幸存派:为“侵略者”三体人服务的人,希望在他们降临地球后,自己的后代能够生存下去(可以理解为汉奸)降临派:对人类的本性绝望的人群,他们认为人类该被彻底毁灭,由三体人来重建地球。
2025-01-14 20:16:30
991
原创 负采样后的CTR预估矫正
在搜广推场景中,正负样本不平衡是个普遍现象。通常做法是对负样本进行降采样,但采样后训练的模型预估概率会比实际概率高估。more举例来说,线上真实样本的CTR是0.001,即正负样本比为1:1000。现对负样本降采样w0.01,即采样后正负样本比为1:10,那么训练后的模型预估CTR为0.1,出现高估的情况。
2025-01-06 00:55:28
1113
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅