LLM Training
文章平均质量分 75
主要是LLM训练相关的paper,针对训练加速,微调等相关内容。涉及的关键词包括finetuning以及training。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Memory Retrieval and Consolidation in Large Language Models through Function Tokens
LLMs虽能通过预训练巩固知识、推理时检索知识,但记忆检索与巩固的机制尚不明确。研究受语言学中“功能词”概念启发,将LLM的令牌分为函数令牌(高频,如标点、介词、冠词)和内容令牌(低频,如名词、动词),探究二者在记忆机制中的作用。大型语言模型(LLMs)的显著成功,源于其能在预训练阶段将海量知识巩固到记忆中,并在推理阶段从记忆中检索知识——这一能力使其具备知识记忆、指令遵循和推理等高级功能。然而,LLMs中记忆检索与巩固的机制仍未被充分理解。原创 2025-11-24 14:59:16 · 7 阅读 · 0 评论 -
DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation
研究背景大型LLM在通用文本摘要任务中表现优异,但在与预训练数据分布不同的专业领域(如电话对话摘要)性能显著下降。小型LLM(参数小于10B)因推理成本低更适合工业部署,但领域适配需大量人工标注数据,存在成本高、隐私风险等问题。核心方法:DACP框架数据构成:包含两部分,一是25B tokens的高质量匿名业务对话数据(从50M条ASR生成 transcript中筛选,基于token类型熵选25M条),二是25B tokens的经验回放数据(来自FineWeb-Edu,缓解灾难性遗忘)。训练流程。原创 2025-11-13 08:30:00 · 127 阅读 · 0 评论 -
Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning
本技术报告提出Ring-linear模型系列,具体包括Ring-mini-linear-2.0和Ring-flash-linear-2.0。其中,Ring-mini-linear-2.0含160亿参数和9.57亿激活参数,Ring-flash-linear-2.0含1040亿参数和61亿激活参数。两款模型均采用有效融合线性注意力与softmax注意力的混合架构,显著降低长上下文推理场景下的I/O开销与计算开销。与320亿参数稠密模型相比,该系列将推理成本降至1/10;原创 2025-11-05 09:30:00 · 110 阅读 · 0 评论 -
EFFICIENT LONG-CONTEXT LANGUAGE MODEL TRAINING BY Core Attention Disaggregation
我们提出核心注意力解耦(CAD)技术,通过解耦核心注意力(CA)——即无参数的softmax((QKᵀ)V计算——并将其调度到独立的资源池,从而优化长上下文大语言模型(LLM)训练。现有系统将核心注意力与其他组件共置,在长上下文场景下,CA计算的二次增长与其他组件的近线性增长会导致负载不均衡,进而在数据并行组和管道并行组中产生掉队者。CAD的设计基于两个关键观察:(i)无状态性:CA无训练参数且暂态状态极少,负载均衡可简化为计算密集型任务调度;原创 2025-11-05 08:30:00 · 457 阅读 · 0 评论 -
Pre-training under infinite compute
由于语言模型预训练的计算量增长远快于可用网络文本数据的增长,我们研究在固定数据且无计算约束的情况下,应如何开展预训练。首先,我们证明现有数据受限方案(增加训练轮次和参数数量)最终会出现过拟合;通过合理调整正则化参数,我们显著改进了这类方案,发现超参数化模型的最优权重衰减是标准实践的30倍。由于我们提出的正则化方案的损失随参数数量增加呈简单幂律单调下降,我们通过其缩放律的渐近线(而非固定计算预算下的性能)来估计其理论最优性能。随后,我们发现训练独立模型的集成方案,其损失渐近线显著低于正则化方案。原创 2025-10-19 08:30:00 · 136 阅读 · 0 评论 -
Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW
长期以来,基于随机梯度下降(SGD)的方法一直是训练大型语言模型(LLMs)的核心。然而,其有效性正日益受到质疑,特别是在大规模应用中,实证证据表明其存在潜在的性能局限性。对此,本文提出了一种专门为LLMs训练设计的随机共轭次梯度方法,结合自适应采样策略。该方法不仅每迭代步收敛更快,而且与传统SGD技术相比,可扩展性更优。它利用样本复杂度分析来自适应选择样本量,采用随机共轭次梯度方法确定搜索方向,并借助类AdamW算法自适应调整步长。原创 2025-10-05 23:37:40 · 40 阅读 · 0 评论 -
INCENTIVIZING GENERAL-PURPOSE AUTOTHINKING CAPABILITY IN MLLMS VIA BI-MODE ANNEALING AND REINFORCE L
配备逐步思考能力的多模态大型语言模型(MLLMs)在复杂推理问题上已展现出卓越性能。然而,对于无需复杂推理即可解决的简单问题而言,这种思考过程存在冗余。为解决这一效率问题,我们提出了自动思考型MLLM——R-4B,它能够根据问题复杂度自适应地决定何时启动思考流程。R-4B的核心思路是通过双模式退火技术为模型同时赋予思考与非思考能力,并应用双模式策略优化(BPO)来提升模型判断是否启动思考流程的准确性。原创 2025-09-15 10:30:00 · 50 阅读 · 0 评论 -
Towards a Unified View of Large Language Model Post-Training
现代语言模型后训练的核心数据来源主要有两类:一类是在线数据(即模型生成的rollouts数据),另一类是离线数据(即人类或其他模型提供的演示数据)。这两类数据通常分别被用于强化学习(RL)和监督微调(SFT)等后训练方法中。本文研究表明,这些方法并非相互对立,而是同一优化过程的不同实例。我们推导出一种“统一策略梯度估计器”,并证明:在不同数据分布假设和各类偏差-方差权衡条件下,各类后训练方法的计算过程均可表示为某一共同目标函数的梯度形式。原创 2025-09-16 09:30:00 · 188 阅读 · 0 评论 -
Efficient Knowledge Probing of Large Language Models by Adapting Pre-trained Embeddings
大型语言模型(LLMs)在生成式预训练过程中,会获取涵盖科学、历史、地理等多个领域的知识。然而,由于其随机性,我们难以预测LLMs究竟掌握了哪些知识。以往研究通过分析模型隐藏表示、设计特定任务提示、筛选代表性样本以及估算不确定性等方式,提出了多种探测LLMs知识的方法。但这些方法若要探测LLMs对某一特定事实的掌握情况,都需要对底层模型进行前向传播,这使得它们计算成本高昂且耗时。原创 2025-09-13 09:30:00 · 180 阅读 · 0 评论 -
ON THE GENERALIZATION OF SFT: A REINFORCEMENT LEARNING PERSPECTIVE WITH REWARD RECTIFICATION
本文聚焦于大语言模型(LLM)的监督微调(SFT)方法,旨在解决其与强化学习(RL)相比泛化能力有限的问题。通过数学分析,作者揭示了标准SFT的梯度更新隐含一种有问题的奖励结构——其奖励信号稀疏且与专家行为的概率成反比,导致梯度方差无界、优化不稳定,进而限制模型泛化能力。为解决这一问题,作者提出动态微调(Dynamic Fine-Tuning, DFT)方法:通过用每个token的概率动态重新缩放SFT的目标函数,稳定梯度更新,修正奖励结构。原创 2025-09-08 08:30:00 · 144 阅读 · 0 评论 -
Model Stock: All we need is just a few fine-tuned models
本文介绍了一种用于大型预训练模型的高效微调方法,该方法在分布内(ID)和分布外(OOD)任务上均表现优异。传统方法需要大量微调模型进行平均,而我们的方法使用显著更少的模型来获得最终权重,却能实现更高的精度。通过深入研究微调权重的权重空间特性,我们发现模型性能与其靠近权重空间中心的程度存在强相关性。基于此,我们提出了一种仅使用两个微调模型即可逼近靠近中心的权重的方法,该方法在训练中或训练后均适用。我们创新的层间权重平均技术仅用两个微调模型,性能便超越了Model Soup等最先进的模型融合方法。原创 2025-08-26 08:30:00 · 110 阅读 · 0 评论 -
Analysis and Optimized CXL-Attached Memory Allocation for Long-Context LLM Fine-Tuning
本文聚焦长上下文大语言模型(LLM)微调中的内存瓶颈问题,研究了计算快速链路(CXL)附加内存作为CPU内存扩展的有效性,旨在通过优化CXL内存分配提升CPU卸载性能。背景与问题:长上下文LLM微调需存储与上下文长度成正比的中间激活值,导致GPU内存不足,因此常采用CPU卸载技术将数据转移至系统内存。但系统内存受限于CPU规格和DIMM插槽,容量有限,成为新瓶颈。CXL技术可扩展内存容量,但直接使用会引发性能问题:CPU优化器步骤因CXL内存延迟高而性能下降;原创 2025-08-11 09:30:00 · 110 阅读 · 0 评论 -
MGAA: Multi-Granular Adaptive Allocation for Low-Rank Compression of LLMs
大语言模型(LLMs)的巨大参数规模使得模型压缩成为研究热点,其目的是减轻部署和推理过程中的计算资源需求。作为一个极具前景的方向,低秩近似技术已取得显著成果。然而,绝大多数低秩近似压缩研究通常对所有权重矩阵采用统一的压缩比,却忽略了它们对模型性能固有的差异化影响。尽管最近有少数工作尝试采用启发式搜索策略来实现最优参数分配,但这类策略计算效率低下,且在大语言模型时代缺乏泛化能力。原创 2025-08-11 08:30:00 · 147 阅读 · 0 评论 -
DistZO2: High-Throughput and Memory-Efficient ZerothOrder Fine-tuning LLMs with Distributed Parallel
微调大型语言模型(LLMs)由于其庞大的规模,仍然是资源密集型任务。尽管零阶(ZO)优化通过消除反向传播提供了一种内存高效的替代方案,但其在数百亿参数模型上的应用仍受限于GPU内存和计算吞吐量。ZO2框架通过将模型参数卸载到CPU内存,并在单个GPU上重叠Transformer块传输与双重前向计算,解决了内存瓶颈。然而,ZO2受限于单设备执行,吞吐量较低。在本文中,我们提出了DistZO2,一个高吞吐量、内存高效的分布式零阶微调框架,用于LLMs。原创 2025-08-06 14:30:00 · 39 阅读 · 0 评论 -
MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs
近年来,大型语言模型(LLMs)推理能力的研究进展表明,采用群体相对策略优化(GRPO)算法进行强化学习(RL)训练,能让模型使用更多的思考/推理token生成更优响应。然而,LLMs在维持对先前生成token的注意力时,所能生成的token数量是有限的。这一限制(即LLM的上下文长度)是其在处理任意多token推理任务时的瓶颈。为了突破上下文长度的限制,LLM必须采用模块化思维策略进行多轮推理。原创 2025-08-04 16:00:00 · 448 阅读 · 0 评论 -
Continual Gradient Low-Rank Projection Fine-Tuning for LLMs
本文针对大语言模型(LLMs)的持续微调中效率与表达能力的权衡问题,提出了一种名为GORP(Gradient LOw Rank Projection,梯度低秩投影)的新训练策略。现有低秩适应方法(如LoRA)虽能提高效率,但受限于低秩结构,限制了模型学习新任务和迁移知识的能力,且依赖显式参数约束易导致任务间参数空间冲突。协同结合全秩和低秩参数,在统一的低秩梯度子空间中联合更新,既扩展了优化空间,又保留了低秩适应的效率;原创 2025-08-01 15:17:55 · 44 阅读 · 0 评论 -
AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training
本文提出了AsyncFlow,一种异步流式强化学习(RL)框架,旨在解决大型语言模型(LLM)后训练过程中的效率和可扩展性问题。现有RL后训练框架分为任务合并型(如DeepSpeed-Chat)和任务分离型(如OpenRLHF),但存在资源闲置、负载不平衡、与特定训练/推理引擎耦合等缺陷。分布式数据存储与传输模块(TransferQueue):实现细粒度数据流调度,支持任务间自动流水线重叠和动态负载均衡,无需预定义数据依赖链。生产者-消费者异步工作流。原创 2025-08-03 09:30:00 · 204 阅读 · 0 评论 -
Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training
梯度优化是深度学习的核心方法,通过反向传播实现高效且可扩展的训练。然而,其对大量标注数据的依赖引发了隐私和安全问题(如易受数据污染攻击),以及过拟合风险。相比之下,黑盒优化方法将模型视为“黑箱函数”,仅通过函数评估指导优化,在数据访问受限、对抗风险高或过拟合风险大的场景中具有潜力。但黑盒方法也面临显著挑战,包括在大型语言模型(LLMs)等高维参数空间中可扩展性差,以及因依赖大量模型评估导致的计算成本高。本文提出BBoxER,一种用于LLM后训练的进化黑盒方法,通过对训练数据的隐式压缩引入信息瓶颈。原创 2025-08-01 09:30:00 · 126 阅读 · 0 评论 -
LoRA Fine-Tuning Without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs
本文提出了一种无需GPU即可为大型语言模型(LLMs)生成低秩适配器(LoRAs)的CPU高效元生成框架,旨在解决传统LoRA微调依赖GPU资源的问题。核心思路是:利用预训练的LoRA适配器库,通过轻量级组合现有LoRA权重(而非进行新的梯度更新),为新任务生成适配的LoRA,整个过程可在普通笔记本CPU上完成。具体而言,该框架将数据集表示为概率分布,通过计算新数据集与预训练数据集的分布相似度(如Wasserstein距离、KL散度等),生成融合权重,进而组合预训练LoRA得到新适配器。原创 2025-08-01 08:30:00 · 211 阅读 · 0 评论 -
Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training
梯度优化是深度学习的核心方法,通过反向传播实现高效且可扩展的训练。然而,其对大量标注数据的依赖引发了隐私和安全问题(如易受数据污染攻击),以及过拟合风险。相比之下,黑盒优化方法将模型视为“黑箱函数”,仅通过函数评估指导优化,在数据访问受限、对抗风险高或过拟合风险大的场景中具有潜力。但黑盒方法也面临显著挑战,包括在大型语言模型(LLMs)等高维参数空间中可扩展性差,以及因依赖大量模型评估导致的计算成本高。本文提出BBoxER,一种用于LLM后训练的进化黑盒方法,通过对训练数据的隐式压缩引入信息瓶颈。原创 2025-07-26 05:22:12 · 30 阅读 · 0 评论 -
T-LoRA: Single Image Diffusion Model Customization Without Overfitting
本文针对扩散模型在单张图像定制场景中易出现过拟合(如位置、背景固化)的问题,提出了一种基于时间步依赖的低秩适应框架T-LoRA(Timestep-Dependent Low-Rank Adaptation)。研究发现,扩散过程中的高时间步(噪声更大的阶段)比低时间步更易过拟合,因此需要时间步敏感的微调策略。动态微调策略(Vanilla T-LoRA):根据扩散时间步调整秩约束更新,高时间步减少训练信号以减轻过拟合,低时间步增加训练信号以保留细节;正交初始化权重参数化(Ortho-LoRA)原创 2025-07-30 09:30:00 · 913 阅读 · 0 评论 -
SingLoRA: Low Rank Adaptation Using a Single Matrix
本文提出了一种新的低秩适应方法SingLoRA,旨在解决传统低秩适应(LoRA)方法中存在的训练不稳定性和参数效率问题。传统LoRA通过两个矩阵(A和B)的乘积对预训练权重进行低秩更新,但矩阵A和B的尺度差异会导致梯度消失或爆炸,影响训练稳定性和性能。SingLoRA通过单个低秩矩阵A的转置乘积(A Aᵀ)重构低秩更新,实现了对称的权重更新(W₀ + A Aᵀ)。这种设计从根本上消除了矩阵间的尺度冲突,保证了训练稳定性,同时将可学习参数数量减少约一半。原创 2025-07-30 08:30:00 · 526 阅读 · 0 评论 -
PAE MobiLLM: Privacy-Aware and Efficient LLM Fine-Tuning on the Mobile Device via Additive
本文提出了,一种基于服务器辅助的“ additive side-tuning”技术,旨在解决移动设备上大语言模型(LLM)微调面临的资源限制、通信负担和隐私泄露问题。该方法通过将LLM微调任务分配给移动设备和服务器:移动设备保留冻结的主干模型,而计算密集的可训练侧网络卸载到服务器。通过激活缓存、单token激活传输和隐私保护的侧网络设计,PAE MobiLLM在提升效率的同时,确保用户数据、真实标签和微调模型始终保留在本地设备,最终实现了移动设备上高效且隐私安全的LLM微调。原创 2025-07-17 09:30:00 · 145 阅读 · 0 评论 -
TuCo: Measuring the Contribution of Fine-Tuning to Individual Responses of LLMs
本文聚焦于大型语言模型(LLMs)微调对个体响应的影响,提出了一种量化微调贡献的新方法——Tuning Contribution(TuCo)。核心问题:现有研究多关注微调对模型整体性能的影响,缺乏对个体输出的定量分析,尤其是微调如何影响模型对特定提示的响应。方法基础:基于Transformer的残差结构,将微调模型精确分解为预训练组件(PTC)和微调组件(FTC)。PTC是预训练模型各层的输出,FTC是微调模型与预训练模型对应层输出的差值。TuCo定义。原创 2025-07-15 09:30:00 · 236 阅读 · 0 评论 -
AFLoRA: Adaptive Federated Fine-Tuning of Large Language Models with Resource-Aware Low-Rank
联邦微调已成为一种有前景的方法,可利用分散的数据使基础模型适应下游任务。然而,在数据和系统资源异构且受限的客户端上对大型语言模型(LLMs)进行微调,其高计算和通信需求使得实际部署仍具挑战性。在这种情况下,全局模型的性能往往受限于资源最弱的客户端,且本地数据的非独立同分布(Non-IID)特性会进一步降低性能。尽管现有方法利用低秩适应(LoRA)等参数高效技术来减少通信和计算开销,但它们通常无法同时确保低秩更新的准确聚合和维持低系统成本,从而阻碍了整体性能。原创 2025-07-02 08:30:00 · 303 阅读 · 0 评论 -
SUMO: Subspace-Aware Moment-Orthogonalization for Accelerating Memory-Efficient LLM Training
研究背景现有低秩梯度优化方法(如GaLore)虽能减少LLM训练内存消耗,但依赖标准最速下降技术,忽略了各向异性损失景观下的收敛加速潜力。传统优化器(如Adam、Shampoo)在高维空间中计算成本高,近似正交化方法(如Newton-Schulz)存在误差累积问题,尤其在LLM训练的病态条件下表现不佳。核心方法:SUMO优化器子空间感知矩正交化:利用动态低维子空间(通过随机截断SVD更新),对一阶矩矩阵进行精确SVD正交化,避免Newton-Schulz的近似误差。理论分析。原创 2025-06-20 09:30:00 · 172 阅读 · 0 评论 -
A SCALING LAW FOR TOKEN EFFICIENCY IN LLM FINE-TUNING UNDER FIXED COMPUTE BUDGETS
翻译我们提出了一种在固定计算预算下微调大型语言模型(LLMs)的缩放定律,该定律明确考虑了数据构成。传统方法仅通过总标记数衡量训练数据,但示例数量及其平均标记长度(我们称之为数据集体积)对模型性能起决定性作用。AccuracyAVβMγEAccuracyAVβMγE其中体积VN⋅LVN⋅L(示例数×平均标记长度),M为模型大小,参数通过既定流程调整(Pareja等人,2024)。原创 2025-05-25 09:30:00 · 147 阅读 · 0 评论 -
Tina: Tiny Reasoning Models via LoRA
原创 2025-05-17 08:30:00 · 203 阅读 · 0 评论 -
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model
本技术报告提出了一种训练视频生成基础模型的经济高效策略。我们展示了一个约有70亿参数的中型研究模型Seaweed-7B,该模型使用665,000个H100 GPU小时从头开始训练。尽管训练时使用的计算资源适中,但Seaweed-7B与当前大得多的视频生成模型相比,展现出极具竞争力的性能。在资源受限的情况下,设计选择尤为关键。本技术报告重点介绍了提升中型扩散模型性能的关键设计决策。通过实证,我们有两个发现:(1)Seaweed-7B的性能与使用大量GPU资源训练的更大模型相当,甚至超越它们;原创 2025-05-05 09:30:00 · 155 阅读 · 0 评论 -
Quantum Large Language Model Fine-Tuning
我们介绍了一种用于大语言模型微调的混合量子 - 经典深度学习架构。该架构的经典部分是一个句子转换器,其功能强大,足以在情感预测等复杂任务中展现出较高的准确率。架构的量子部分由参数化量子电路组成,这些电路利用了量子比特之间的长程连接。我们分析了混合模型在各种超参数设置下的性能,包括量子比特数、量子电路深度、学习率、重上传步数等。基于主效应筛选研究,我们发现与可比的经典基线相比,预测准确率总体有所提高,且准确率有随量子比特数增加而上升的趋势。原创 2025-05-01 12:25:04 · 147 阅读 · 0 评论 -
Modifying Large Language Model Post-Training for Diverse Creative Writing
本文针对大型语言模型(LLM)在创意写作任务中输出多样性不足的问题,提出了通过后训练(post-training)方法同时提升生成质量和多样性的解决方案。传统的后训练方法(如DPO、ORPO)虽然能提高生成质量,但会显著降低多样性。作者引入偏差(deviation)概念,即同一提示下训练样本与其他样本的差异程度,并将其整合到训练目标中,形成了多样化DPO(DDPO)和多样化ORPO(DORPO)。原创 2025-04-12 09:30:00 · 68 阅读 · 0 评论 -
Modifying Large Language Model Post-Training for Diverse Creative Writing
本文针对大型语言模型(LLMs)在创意写作任务中生成多样性不足的问题,提出了通过后训练优化提升输出多样性的方法。研究发现,现有后训练方法(如DPO、ORPO)在提升生成质量的同时,往往导致多样性下降。作者提出在训练目标中引入偏差(deviation)指标,即计算同一提示下训练样本与其他样本的差异程度,以鼓励模型学习罕见但高质量的生成模式。通过扩展DPO和ORPO,提出了和,并通过实验验证了这些方法在保持生成质量的同时显著提高了语义和风格多样性。原创 2025-04-11 09:30:00 · 177 阅读 · 0 评论 -
Communication-Efficient Language Model Training Scales Reliably and Robustly
本文研究了通信高效的分布式训练方法DiLoCo在大规模语言模型(LLM)训练中的扩展规律。通过固定计算预算,作者分析了DiLoCo在模型规模、超参数(学习率、批量大小等)和令牌预算下的行为,并提出了扩展定律。实验表明,DiLoCo在模型规模增大时表现出可预测性和鲁棒性,其最优批量大小更大,通信成本更低,且在某些情况下比传统数据并行方法(Data-Parallel)性能更优。通信高效的语言模型训练可靠且鲁棒地扩展:DiLoCo的扩展定律。原创 2025-03-31 10:22:44 · 209 阅读 · 0 评论 -
Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
大语言模型(LLMs)在各种任务中展现出令人瞩目的能力,然而,要有效部署这些模型,需要对超参数进行仔细优化。通过对多种配置进行广泛的网格搜索实证研究,我们发现了适用于这些超参数的通用缩放定律:最优学习率与模型参数和数据规模均呈幂律关系,而最优批量大小主要随数据规模变化。我们的分析表明,在固定模型和数据规模条件下,超参数的优化景观是凸的。这种凸性意味着存在一个最优超参数平台。我们为社区贡献了一种通用的、即插即用的最优超参数工具。在测试集上,其估计值与通过穷举搜索得到的全局最优LLM性能仅相差0.09%。原创 2025-03-21 09:30:00 · 249 阅读 · 0 评论 -
Transformers without Normalization
归一化层在现代神经网络中无处不在,长期以来一直被认为是必不可少的。这项工作表明,使用一种非常简单的技术,不含归一化层的Transformer也能达到相同甚至更好的性能。我们引入动态双曲正切(Dynamic Tanh, DyT),这是一种逐元素操作,即DyTxtanhαxDyTxtanhαx,可直接替代Transformer中的归一化层。DyT的灵感来自于观察到Transformer中的层归一化通常会产生类似双曲正切的S形输入 - 输出映射。原创 2025-03-21 08:30:00 · 114 阅读 · 0 评论 -
Large Language Models as Attribution Regularizers for Efficient Model Training
大语言模型(LLMs)在多个领域展现出卓越性能。然而,如何有效利用其丰富知识来训练下游较小模型仍是一个有待解决的挑战,尤其在表格数据学习领域,由于可解释性和效率因素,更倾向于使用简单模型。在本文中,我们提出一种新颖且简单的方法,将大语言模型生成的全局任务特征归因融入到较小网络的训练过程中。具体而言,我们提出了一个归因匹配正则化项,使较小模型的训练动态与大语言模型提供的见解保持一致。通过这种方式,我们的方法在少样本学习场景中表现出色。原创 2025-03-19 09:30:00 · 118 阅读 · 0 评论 -
Sliding Window Attention Training for Efficient Large Language Models
基于Transformer的大语言模型(LLMs)最近取得的进展显示出其在各种任务上的卓越能力。然而,它们在处理长文档时,计算复杂度与序列长度呈二次方关系,这仍然是一个重大瓶颈。因此,人们提出了许多方法,如稀疏注意力机制和状态空间模型,以提高大语言模型在处理长序列时的效率。虽然这些方法提高了效率,但它们往往需要复杂的架构和并行训练技术。这就需要一种简单而有效的模型,同时保留基本的Transformer架构。原创 2025-03-08 21:37:10 · 202 阅读 · 0 评论 -
HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid
低秩自适应(LoRA)是一种主流的参数高效微调方法,用于使大语言模型(LLMs)适应下游任务。在本文中,我们首次提出将LoRA微调后的大语言模型部署在混合内存计算(CIM)架构上(即,预训练权重存储在RRAM中,LoRA存储在SRAM中)。为了解决RRAM固有噪声导致的性能下降问题,我们设计了一种新颖的硬件感知低秩自适应(HaLoRA)方法,旨在通过对齐理想和噪声条件下的训练目标,训练出既稳健又准确的LoRA分支。原创 2025-03-08 08:30:00 · 131 阅读 · 0 评论 -
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
监督微调(SFT)和强化学习(RL)是基础模型训练后广泛使用的技术。然而,它们在增强模型泛化方面各自的作用尚不清楚。本文研究了SFT和RL在泛化和记忆方面的比较效果,重点研究了基于文本和视觉环境。我们介绍了算术推理纸牌游戏GeneralPoints,并考虑了现实世界的导航环境V-IRL,以评估用SFT和RL训练的模型如何泛化到文本和视觉领域中看不见的变体。我们发现,强化学习,特别是在基于结果的奖励训练中,在基于规则的文本和视觉环境中都具有普遍性。原创 2025-02-28 10:00:00 · 324 阅读 · 0 评论 -
TEST-TIME TRAINING ON NEAREST NEIGHBORS FOR LARGE LANGUAGE MODELS
最近的许多工作通过将检索到的数据添加到输入上下文来增强语言模型的检索功能。要使此方法成功,必须在训练和测试时添加检索到的数据。此外,随着输入长度随检索数据的大小线性增长,现代 Transformer 的计算和内存成本呈二次方增长。为了避免这些复杂性,我们只需在测试时使用其标准训练设置,根据检索到的数据对模型进行微调。我们基于 Pile 数据集的文本嵌入构建了一个大规模分布式索引。对于每个测试输入,我们的系统会检索其邻居并根据其文本微调模型。原创 2024-10-11 09:00:00 · 254 阅读 · 0 评论
分享