自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(124)
  • 收藏
  • 关注

原创 transformers中学习率warmup策略具体如何设置

在使用(如 Hugging Face Transformers 库中的学习率调度器)时,参数的合理设置需要结合和来确定。: 学习率预热步数(逐渐增大学习率的阶段): 总训练步数(学习率从峰值线性衰减到 0 的总步数)总训练步数 = 每轮(epoch)的步数 × 训练轮数(epochs)每轮的步数 = ⌈ 数据总量 / batch_size ⌉ (向上取整)(< 10k 样本): 预热步数占总步数的(> 10k 样本): 预热步数占总步数的(> 1M 样本): 预热步数可设为max。

2025-03-27 19:46:29 998

原创 16-Identity Mappings in Deep Residual Networks

hf函数应该使用恒等映射,保证梯度可以直接回传至任意浅层,不容易产生梯度消失或爆炸,相比其它hf函数效果更好h:使用会阻碍传播,产生优化问题f :使用BN会阻断梯度的传播,不要加在addition之后ReLU不要加在残差模块的最后:希望残差模块的输出是无穷正无穷之间1.保证f和h是恒等映射2.在残差模块中将BN和Relu函数提前,效果最好3.将BN放在weight之前:保证每一层残差模型的输入都是归一化的。

2025-03-26 12:38:52 349

原创 大模型技术细节(参数量&时间复杂度)

大模型吞吐量的计算需要综合考虑模型的计算需求、硬件性能、系统架构以及软件优化等多个方面(计算量、硬件性能、并行策略、内存限制、通信开销、模型结构、软件优化、数据加载等)可能没有一个简单的公式,而是需要具体问题具体分析,结合实测和理论估算。

2025-03-26 10:56:46 527

原创 tensorflow与torch并行读取数据机制

PyTorch 虽然没有与 TensorFlow 的 tf.data API 和 TFRecord 格式完全相同的机制,但它通过 torch.utils.data 模块和分布式训练库实现了类似的功能。其速度与文件大小直接相关:文件总数据量越大,预加载时间越长,但后续训练时的数据访问速度会更快(因为无需频繁的磁盘 I/O), 所以可以将每个文件做的小一点)。并行化支持:支持分片(Sharding),将大数据集拆分成多个文件(如 data-00001-of-00010.tfrecord),便于并行读取。

2025-03-21 14:34:38 1055

原创 on-policy对比off-policy

强化学习中有两个策略:行动策略(生成样本的策略)和目标策略(被优化的策略)和:使用当前策略(即正在优化的策略)生成的数据来更新策略。:允许使用其他策略(如历史策略或探索性策略)生成的数据来更新目标策略,两个策略是分离的。

2025-03-18 21:16:35 700

原创 稀疏attention:Sliding Window Attention高效实现方式

---- 持续更新。

2025-03-14 18:18:18 678

原创 4种经典位置编码

固定位置 pos随着维度i的增加,正弦和余弦函数的频率会降低,周期会变长(见上图)。所以简单来说 RoPE 的 self-attention 操作的流程是,对于 token 序列中的每个词嵌入向量,首先计算其对应的 query 和 key 向量,然后对每个 token 位置都计算对应的旋转位置编码,接着对每个 token 位置的 query 和 key 向量的元素按照 两两一组 应用旋转变换,最后再计算 query 和 key 之间的内积得到 self-attention 的计算结果。时,函数的值会重复。

2025-03-12 21:30:37 798

原创 24-MATH-SHEPHERD:

这一标准源于推理过程的主要目标,推理过程本质上是一种认知过程,帮助人类或智能体达到有充分依据的结果。因此,一个有可能推断出有充分依据的结果的步骤可以被认为是一个很好的推理步骤。与ORM类似,这个定义也引入了一定程度的噪声。然而,我们发现,有效地训练一个好的PRM是有益的。受蒙托卡罗树搜索 的启发,将推理步骤的质量定义为其推断出正确答案的潜力。为了量化和估计给定推理步骤sis_isi​si1j⋅⋅⋅sKjjajsi1j​,⋅⋅⋅,sKj​j​。

2025-03-11 10:45:53 804

原创 Scaling Laws for Neural Language Models

调查大模型与模型结构,模型大小,算力,数据之间的关系。这种关系可以被更严格地定义成 Scaling Law,这是一个可以描述 LLM 的测试损失随某个量(如训练计算量)的增长而降低的公式。Scaling Law 可帮助我们预测当投入更多资源进行更大规模训练时的效果,这能给我们提供继续投资 scaling 的必要信心。如何合理的分配资源来达到更好的训练效果。问题:模型的形状(即层的数量和大小)重要吗?使模型更大是否有助于其表现更好?训练这些更大的模型需要多少数据匹配?

2025-03-07 10:36:01 1035

原创 大模型相关细节

大模型相关知识点

2025-02-28 16:39:47 1055

原创 梯度累加(结合DDP)梯度检查点

梯度累加,梯度检查点

2025-02-25 20:21:38 732

原创 混合精度提升大模型训练性能

混合精度,权重复制,loss scale

2025-02-25 11:58:14 596

原创 TD时间差分算法

刚才介绍的TD算法只能估计state-values,Sarsa可以直接估计action values,并且结合policy improvement可以求解最优策略。和MC的不同:在对state进行估计update后,立马进行policy update,而不是积累很多数据对state进行一个相对准确的估计。Sarsa基于一步的action来计算,N-step Sarsa等待n步的数据,再计算。N-step Sarsa 是一个更一般化的形式,当n=1,为Sarsa算法,当n->为目标值,该算法的目标是使得。

2025-02-24 08:40:01 776

原创 强化学习-GAE方法

强化学习的目标为最大化策略的预期总回报,其中一个主要困难为 行为对reward的影响存在一个长时间的延迟(credit assignment problem)。价值函数为信用分配提供了一种优雅的解决方案,它们允许我们在延迟的奖励到来之前估计一个动作的好坏。AC方法中使用价值函数而不是经验回报,以引入偏差为代价获得方差较低的估计量。但是,虽然高方差需要使用更多的样本,但偏差更有害——即使样本数量不受限制,偏差也会导致算法无法收敛,或者收敛到一个甚至不是局部最优的糟糕解决方案。

2025-02-21 20:37:09 960

原创 RLHF的改进算法DPO原理

RLHF需要先利用偏好数据来训练一个RM,然后基于强化学习来最大化奖励,而不能偏离原始模型。DPO通过奖励函数和最优策略之间的映射,受限的奖励最大化问题可以使用单个阶段的策略来实现微调,无需训练RM,数据采样,训练更轻量;IPO提出当偏好数据更优的确定性很大时,控制kl散度强度的参数不起作用,dpo可能会发生过拟合。IPO在DPO的损失函数上添加了一个正则项,从而即使偏好确定性很大时,最优的策略也可以靠近于。这样模型的微调更新就不依赖于reward函数,而是只依赖于偏好数据对。将reward r带入到。

2025-02-19 21:13:02 618

原创 RLHF中PPO算法细节

1. 第一项:第一项中r为reward-model给RL模型输出的打分,由于在训练过程中,模型的输出会发生变化,所以reward-model的作用是减少标注成本,并且将reward-model的打分作为优化的基准。第三阶段利用第二阶段的打分模型来优化,产生高reward的回答,类似利用伪标签来扩充高质量训练数据。将value-function作为actor的监督信号,value-function在训练过程是同时根据reward-model进行优化。偏移太多,将其限制在一定区间范围内,提升训练的稳定性。

2025-02-17 19:16:18 847

原创 18-ESMM: An Effective Approach for Estimating Post-Click Conversion Rate

是样本空间的子集,正样本为转换样本,负样本为点击未转化样本。在推断时则基于假设全部样本空间为点样本空间,但是实际上这两个样本空间是非常不一样的,这会导致训练样本的分布偏离真正的底层分布,并损害CVR的泛化性能。该模型将两个任务的样本空间转换为同一个整个样本空间x, 训练loss不需要计算cvr任务的loss(正负样本采样可以在全部样本空间中进行,cvr任务的学习不需要局限在点击空间中)这种参数共享机制使ESMM中的CVR网络能够从未点击的展示样本中学习,为缓解数据稀疏问题提供了极大的帮助。

2025-02-07 12:00:42 917

原创 23- TIME-LLM: TIME SERIES FORECASTING BY REPRO- GRAMMING LARGE LANGUAGE MODELS

用LLM来解决时序预测问题,并且能够将时序数据映射(reprogramming)为NLP token,并且保持backbone的大模型是不变的。作为attention中的V和K,path embedding作为attention中的Q,这样就可以得到path与每个nlp token之间的相关性。可以看出,在经过充分的学习之后,不同的patch有不同的语意含义,需要不同的原型来表示。(相当于将每个段时序信息的数据映射为一个embeding,来描述该时段的信息)。将时序数据进行数据对齐,为nlp能理解的信息。

2025-01-16 10:59:52 1060

原创 Joint Optimization of Ranking and Calibration with Contextualized Hybrid Model

改文章将预测值logit拆分为两个部分:为正样本的概率和负样本的概率。并推导证明这种方式能够同时提升校准能力和排序能力: pointwise loss能够带有排序能力。listwise能够带有排序能力。并且更好的利用non-click data。并且证明了在rank loss 和 bce loss组合的情况下,logit能够代表明确的ctr打分,两个logit相减就是代表真实含义的ctr预估值。

2025-01-13 10:50:16 837

原创 24-KDD-Understanding the Ranking Loss for Recommendation with Sparse User Feedback

同时也会加强负样本的梯度,防止梯度消失。负样本的梯度近似于CTR预估值。无偏ctr的预估值近似等于点击样本占总体样本的比例,所以当正样本稀疏时,负样本会产生梯度消失问题。点击率预估场景中,BCE loss在正样本稀疏的场景下,负样本会产生梯度消失的问题(pointwise训练方式)以相等的正样本频率对样本进行分桶,并绘制每个分桶内相应样本的偏差,发现组合方法获得了更小的偏差。当正向反馈稀疏时,正样本的估计值比0.5小很多,zi(+)小于0,所以负样本的梯度会被放大。为什么正样本稀疏,会导致负样本梯度消失?

2025-01-10 16:57:46 295

原创 Alpha-go论文分享

alpha-go

2022-06-12 17:58:07 2275

原创 Top-K Off-Policy Correction for a REINFORCE Recommender System

policy-gradient应用到推荐领域:主要有3个创新点:1. 校正off-policy与on-policy之间的偏差2. top-k推荐而不是只推荐一个3. 加入探索方式

2022-06-07 11:23:54 608

原创 Reinforcement Learning for Solving the Vehicle Routing Problem

Reinforcement Learning for Solving the Vehicle Routing Problem再这个工作中,开发了一个使用强化学习来解决大规模组合优化问题的框架,并将其应用到VRP问题中。为了这个目的,考虑使用Markov Decision Process来建模问题,最优解可以看做序列决策,这就可以使用通过RL来增加decode 期望序列的概率来产生次优解。一个天然的想法是通过考虑每个样本独立的来找到一个特定于问题的解。此外,所学习的策略不适用于除训练中使用的实例以外的实例;

2020-12-30 15:00:21 1840

原创 Efficiently Solving the Practical Vehicle Routing Problem: A Novel Joint Learning Approach(GCN-NPEC)

Efficiently Solving the Practical Vehicle Routing Problem: A Novel Joint Learning Approach(GCN-NPEC)KDD2020使用GCN + 强化学习解决VRP问题1.1.1 目标函数:每辆车的花费 + 行驶距离最终生成π\piπ 为每个车辆的行驶路径1.2 Graph Convolutional Networks with Node Sequential Prediction and Edge C

2020-12-25 21:10:04 1885 2

原创 xgboost使用one-hot编码方式是否合理

one-hot编码方式离散特征为什么要是用one-hot编码方式:类别编码默认特征是有序的,不适用于离散特征特征之间的距离计算方式更加合理编码后每一维的特征都是独立的,可以看做是连续特征无法考虑特征之间的相互关系决策树与类别编码在树模型中,当类别特征为数很高时,one-hot编码并不合适:使用one-hot coding的话,意味着每一个决策节点上只能用one-vs-rest的切分方式,当特征维度高时,每个类别的数据都会比较少,产生的切分不平衡,切分增益也会很小会影响决策数的学习,会

2020-10-17 22:33:01 3629

原创 Hadoop分布式文件系统

但数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区并存储到若干台单独的计算机上。管理网络上跨多台计算机存储的文件系统称为分布式文件系统。Hadoop有一个称为HDFS的分布式系统,全称为Hadoop Distributed FileSystem。HDFSHDFS以流式数据访问模式来存储超大文件流式数据访问:HDFS的构建思路是这样的:一次写入,多次读取是最高效的访问模...

2020-07-19 00:55:24 8506

原创 git原理与命令介绍

1. 分支简介1.1 git分支创建在进行提交操作时,git会保存一个提交对象,该对象包含一个指向暂存内容的指针,还包括作者信息,提交时输入的信息以及指向它的父对象的指针。git的分支其实本质上仅仅是指向提交对象的可变指针,git的默认分支是master,git init命令默认创建它,master分支会在每次提交时自动向前移动。git分支创建其实是创建了一个可以移动的新指针$ git branch testing //创建testing分支这会在当前所在的提交对象上创建一个指针当前

2020-07-11 21:29:15 245

原创 Boosting算法与假设间隔

Boosting算法与假设间隔间隔概念AdaBoost算法AdaBoost 平均间隔参考资料间隔概念间隔是一种几何度量,能够用于度量分类器预测的可信程度。间隔的两种定义:1. 样本间隔: 被预测样本与决策面间的距离。支持向量机( support vector machine,SVM) 算法采用了样本间隔概念; ②假设间隔: 要求对分类器之间的距离进行度量,表示在不改变分类结果的前提下分类器可...

2020-04-01 20:10:12 605

原创 FM算法

FM算法存在的问题基于的思想具体方法时间复杂度优点参考资料存在的问题稀疏数据下的特征组合问题类别特征经过one-hot编码转换后会导致样本特征的稀疏性,并且会得到千万级别甚至上亿级别的特征空间,导致特征空间爆炸多项式模型:可以看出,组合的特征的参数一共有 n(n−1)2\frac{n(n-1)}{2}2n(n−1)​个,并且它们都是相互独立的,而且在数据稀疏普遍存在的实际应用场景中...

2019-12-12 22:16:08 1329

原创 leetcode排列组合集合

46. PermutationsGiven a collection of distinct integers, return all possible permutations.Example:Input: [1,2,3]Output:[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]]class Solution {pu...

2019-11-30 13:25:48 318

原创 DFS深度优先搜索(leetcode题目)

题目链接leetcode 494. Target Sumdp(暴力搜索)class Solution {public: int ways; int findTargetSumWays(vector<int>& nums, int S) { ways=0; findTargetSum(nums, 0, 0, S); ...

2019-10-20 17:02:32 802

原创 Adapting Markov Decision Process for Search Result Diversification

多样化排名的MDP形式多样化排序模型可以被看作是在每一个排序位置学习MDP模型的参数。其中MDP的states,actions,rewards,transitions和policy。State S:st=[Zt,Xt,ht]s_t=[Z_t, X_t,h_t]st​=[Zt​,Xt​,ht​]其中hth_tht​是编码了用户从之前的文档ZtZ_tZt​接收到的untility,还有基于q需...

2019-07-03 20:20:12 411

原创 Diverse Ranking with Policy-Value Networks

文章目录Abstract:Introduction相关工作2.1搜索结果多样性2.2 强化学习for IR3. MDP and MCTS3.1 Markov decision process3.2 Monte Carlo tree search4.使用policy-value networks进行多样化排序4.1 MDP formulation of diverse ranking4.2 Stre.................................

2019-06-23 17:14:18 780 3

原创 样本不权衡&easy和hard样本:Focal loss和Gradient Harmonizing Mechanism

本文主要介绍两个在目标检测中解决正负样本和easy,hard样本不平衡问题的方法,分别是发表在ICCV 2017上的Focal Loss for Dense Object Detection和AAAI 2019上的Gradient Harmonized Single-stage Detector。这两种方法都是通过调整每个样本的loss来解决不平衡问题。这两种方法都是针对目标检测任务提出的,首先...

2019-06-15 17:30:35 2086

原创 交叉熵与KL散度和交叉熵之间的关系

熵的本质是香农信息量log1plog\frac{1}{p}logp1​现有关于样本即的2个概率分布p和q,其中p为真是分布,q为非真实分布。按照真实分布p来衡量识别一个样本所需要的编码长度的期望(即平均编码长度)为:H(p)=−∑ip(i)logp(i)H(p)=-\sum_i p(i)log p(i)H(p)=−i∑​p(i)logp(i)如果使用错误分布q来表示来自真是分布p的平均编码长度...

2019-05-30 22:02:31 9983 4

原创 优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW,LazyAdam)

文章目录优化方法概述整体框架SGDMomentum理解指数加权平均偏差修正AdaGradAdaDelta/RMSPropAdam(Adaptive Moment Estimation)Adam+L2 regularizationL2 regularization与Weight decay学习率衰减局部最优优化方法概述模型优化方法的选择直接关系到最终模型的性能。有时候效果不好,未必是特征的问题或...

2019-05-29 01:07:50 36848 15

原创 DeepFM理论

文章目录CTR预估其他方法的缺点该方法解决的问题具体方法实现FM ComponentDeep Componentembedding层该方法的优点CTR预估CTR预估数据的特征:输入数据包括类别型和连续型数据,类别型数据在经过one-hot编码之后维度非常的高,而且非常稀疏。CTR预估的重点在于学习组合特征(二阶,三阶甚至高阶的),高阶和低阶的组合特征都非常重要。关键问题是:如何高效的提取这些...

2019-05-20 19:17:52 614

原创 NFM(Neural Factorization Machines for Sparse Predictive Analytics)

普遍问题在预测任务中,特征向量是高度稀疏的,学习特征交互是重要的为什么提出该方法,其他方法的缺点人工设计特征组合需要领域知识,很难泛化到新问题或者新领域,没有办法捕获到没有出现在训练数据中的组合特征;embedding的方式:FM:以线性的方式学习二阶特征交互,对于捕获现实数据非线性和复杂的内在结构表达力不够;深度网络:例如Wide&Deep 和DeepCross,简...

2019-05-19 22:00:51 978

原创 决策树完整总结(ID3,C4.5,CART)

文章目录1.介绍1.1 定义1.2 决策树与条件概率分布1.3 决策树的构建1.3.1 划分准则1.3.2 停止条件:2. 决策树的构建过程2.1 ID3算法2.2 C4.5算法3. 决策树的剪枝算法3.1:树的剪枝算法:3.1 基尼指数5.2 CART剪枝4. 优点1.介绍1.1 定义决策树学习的目标是根据给定的训练数据集合构建一个决策树模型,使它能够对实例进行正确的分类。决策树学习的本质...

2019-04-29 23:19:19 3004

原创 奇异值分解

奇异值分解理论描述新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入理论描述奇异值分解(singular va...

2019-04-26 16:20:24 661

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除