Large Language Model
文章平均质量分 92
FesianXu
腾讯-微信事业群-高级算法工程师, 百度-搜索策略部-前高级算法工程师。 主要从事多模态检索、视频检索、信息检索,大模型落地应用等领域工作。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型偏好对齐中的DPO和PPO方法
本文探讨了大语言模型(LLM)训练中的偏好对齐方法,重点介绍了直接偏好优化(DPO)和近端策略优化(PPO)两种方法。偏好对齐通过对比正负样本(如奖励模型筛选或人工标注)优化模型回答质量,避免仅依赖行为模拟(SFT)导致的泛化不足问题。DPO通过引入初始模型约束和Bradley-Terry偏好模型,稳定训练过程并防止奖励劫持。实验表明,无约束优化易生成无意义回答,而DPO结合KL散度约束能有效提升回答质量。文章还提供了DPO的代码示例,强调对比式对齐通过显式划分回答空间,增强模型对生成内容的判别能力。原创 2025-09-13 01:35:00 · 950 阅读 · 0 评论 -
BoNBoN——结合行为模仿和偏好对齐进行Best-of-N对齐的方法
BoNBoN方法,结合行为模仿与偏好对齐,利用Best-of-N采样结果进行模型蒸馏。实验表明,该方法在KL约束下实现渐进最优策略,以更小的模型偏离取得更高胜率,性能优于传统RLHF和DPO基线。原创 2025-03-20 20:36:07 · 1232 阅读 · 0 评论 -
给定计算预算下的最佳LLM模型尺寸与预训练数据量分配
如果给定了计算预算C,如何分配LLM的模型尺寸N和训练的数据量D,才能使得模型的效果L最好呢?原创 2025-03-05 21:18:15 · 1079 阅读 · 0 评论 -
大模型推理时的尺度扩展定律
大模型的尺度扩展定律告诉我们:『LLM的性能会随着模型的参数量、模型的训练量、模型的训练数据量的增加而增加』。训练存在尺度扩展定律,测试也存在尺度扩展定律,实践告诉我们在推理时候增大计算量,往往可以获得模型性能收益。那么在给定了计算预算的前提下,如何安排预算才能达到最好的模型效果呢?原创 2025-03-02 23:58:53 · 896 阅读 · 0 评论 -
RLHF中的on-policy和off-policy的区别
On-policy方法(如PPO)在LLM和RLHF中主要用于需要实时生成文本的场景,虽然训练稳定,但采样效率较低Off-policy方法(如DPO)则更适合利用历史数据进行高效训练,尤其在大规模数据和异步训练场景中表现出色选择哪种方法取决于具体的应用场景和资源限制。原创 2025-02-07 18:56:43 · 1424 阅读 · 0 评论 -
Verifier 和 Reward Model 的区别
Verifier 可以是一个独立的模型或模块,也可以是一个简单的规则检查器。Reward Model 通常是一个独立的模型,用于对模型的输出进行评分。原创 2025-02-07 14:44:57 · 760 阅读 · 0 评论 -
胡思乱想:世界多胞体与大模型
(Interpolation)得到,在世界多胞体之内的知识,只要提供了世界多胞体的节点集合(也可以认为是整个世界的最小知识集合),我认为是可以通过大模型去学习然后内插得到其他知识的,最终大模型得以建模整个世界多胞体,我把这个大模型称之为。此处,我假设世界大模型是没法进行。的真子集,其组成的世界多胞体,如Fig 1的蓝色区块所示(此处为了绘图方便,用二维图形代表多胞体),可以认为是整个世界的知识边界,在其之外是未知知识的空间,其中的淡蓝色圆点表示可以通过世界多胞体节点集合。我给出的定义是,每一个世界中的。原创 2025-02-06 20:28:09 · 968 阅读 · 0 评论 -
奖励模型中的尺度扩展定律和奖励劫持
最近在考古一些LLM的经典老论文,其中有一篇是OpenAI于ICML 2023年发表的文章,讨论了在奖励模型(Reward Model)中的尺度扩展规律(Scaling Laws),也即是通过扩展奖励模型的模型大小、数据量等去提升奖励模型的能力...原创 2025-02-06 12:25:34 · 1142 阅读 · 0 评论 -
MeCo——给预训练数据增加源信息,就能减少33%的训练量并且提升效果
最近看到一篇预训练的文章,只在每条预训练数据的前面加上一个源信息(即是该信息的URL信息),就能加速训练(+33%)并且提升下游任务的效果,本文进行阅读笔记。如有谬误请见谅并联系指出,本文遵守。关键字:大模型预训练、源信息、加速训练、提升效果∇\nabla∇知乎:https://www.zhihu.com/people/FesianXu微信公众号:机器学习杂货铺3号店最佳阅读体验见: https://fesianxu.github.io/2025/01/11/MeCo-20250111/原创 2025-01-11 12:06:10 · 955 阅读 · 0 评论 -
DoReMi——一种通过代理模型估计大模型预训练最佳数据配比的方法
LLM的预训练是决定其底座能力的至关重要的步骤,其预训练数据通常会包含有多种领域的数据,如何调整不同领域的数据配比(可以理解为采样频率)是极其重要的大模型预训练研究点。本文介绍DeepMind提出的一种基于代理模型去估计最佳数据配比的方法,原创 2025-01-05 23:59:50 · 1139 阅读 · 0 评论 -
Alignment与Correspondence,用于量化衡量MLLM中视觉特征的视觉语义对齐与视觉结构程度的方法
在多模态大模型(Multimodal Large Language Model, MLLM)中,视觉特征就像是人的眼睛,而底座的LLM则像是人的大脑,合适的视觉特征的选择通常都是一个MLLM成功的重要一步。本文介绍一种可以用于高效选择合适的视觉特征的方法,如有谬误请见谅并联系指出,本文遵守。关键字:高效的MLLM视觉特征选择、定量衡量视觉语义对齐、定量衡量视觉结构特征知乎专栏:计算机视觉/计算机图形理论与应用微信公众号:机器学习杂货铺3号店视觉编码器,可以是CLIP、SigLIP、DINO等。原创 2024-10-06 15:19:53 · 1531 阅读 · 1 评论 -
【论文极速读】 可微分检索索引(Differential Search Index, DSI)
最近从朋友处得知了DSI这个概念,所谓的可微分检索索引DSI,就是通过语言模型将检索过程中的索引和召回阶段端到端地融合在一起,输入query模型直接输出docid,笔者今日抽空看了下原论文,简单笔记下,希望对各位读者有所帮助。原创 2024-07-14 22:52:38 · 1241 阅读 · 0 评论 -
【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式
Prompt tuning是一种高效的LLM下游任务适配方式原创 2023-09-29 15:18:51 · 2599 阅读 · 0 评论 -
增强型语言模型——走向通用智能的道路?!?
增强型语言模型,正在突破我们的想象走向通用智能原创 2023-05-05 10:05:47 · 1497 阅读 · 0 评论
分享