LLM Inference
文章平均质量分 75
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TiDAR: Think in Diffusion, Talk in Autoregression
TiDAR 是一款序列级混合架构语言模型,核心目标是解决自回归(AR)模型吞吐量低、扩散语言模型(dLM)质量与并行性矛盾的问题。其通过“扩散 drafting(思考)+ 自回归 sampling(生成)”的双模式设计,在单模型单次前向传播中实现并行高效生成与高质量输出的平衡。背景:AR模型生成质量高但逐token生成、吞吐量低;扩散模型支持并行生成但存在质量退化,现有方法难以兼顾三者。原创 2025-11-24 08:30:00 · 88 阅读 · 0 评论 -
SELF SPECULATIVE DECODING FOR DIFFUSION LARGE LANGUAGE MODELS
背景与问题dLLMs作为自回归模型(ARMs)的替代方案,虽有双向注意力、并行生成等优势,但现有并行解码方法会偏离逐步解码过程,导致性能下降,且传统推测解码需额外辅助模型,存在冗余和内存开销。dLLMs因双向注意力机制,难以直接应用ARMs的KV缓存策略,虽有自适应缓存框架将其从计算密集型转为内存密集型,但仍需更高效的解码方法。SSD框架设计自生成机制:让dLLM自身同时为多个位置生成候选 tokens,并输出置信度分数,无需额外草稿模型。分层验证树。原创 2025-11-01 09:30:00 · 127 阅读 · 0 评论 -
LESS DIVERSE, LESS SAFE: THE INDIRECT BUT PERVASIVE RISK OF TEST-TIME SCALING IN LARGE LANGUAGE MODE
核心问题发现:TTS技术的核心前提是“候选响应多样性提升可靠性”,但研究发现,即使轻微降低候选多样性,TTS生成不安全输出的概率会显著增加,这是此前未被识别的失效模式。REFDIV协议提出:设计“参考引导多样性降低协议(REFDIV)”,通过遗传算法迭代优化提示词,先引导候选响应向有害方向偏移,再最小化其多样性(用香农熵衡量),以此对TTS管道进行压力测试。实验验证范围模型覆盖。原创 2025-10-30 09:30:00 · 118 阅读 · 0 评论 -
EARN: Efficient Inference Acceleration for LLM-based Generative Recommendation by Register Tokens
研究背景:基于大型语言模型(LLM)的生成式推荐(LLMRec)虽性能优异,但因KV缓存的巨大计算开销和内存压力,推理延迟高,限制了实际应用(如需要毫秒级响应的工业场景)。现有方法局限缓存压缩:通过移除次要KV对减少缓存,但推荐任务解码步骤少(生成1-5个token),加速效果有限。提示压缩:通过缩短输入序列减少初始KV缓存,但难以区分推荐任务中用户交互的重要性,易丢失关键信息导致准确性下降。核心发现:通过分析LLMRec的注意力分数分布,发现两个关键特征:层间注意力稀疏度反转。原创 2025-10-09 09:30:00 · 266 阅读 · 0 评论 -
VEDA: Efficient LLM Generation Through Voting-based KV Cache Eviction and Dataflow-flexible
本文针对大型语言模型(LLMs)在边缘设备部署时面临的计算和内存资源挑战,提出了一种名为VEDA的定制加速器,通过算法、数据流和硬件的三重优化提升LLM推理效率。算法层面:提出基于投票的KV缓存淘汰算法,通过每个token的注意力分数作为“选票”,自适应识别不重要的KV向量,平衡硬件效率和算法准确性,解决现有方法的偏差问题。数据流与硬件层面。原创 2025-10-06 12:45:00 · 171 阅读 · 0 评论 -
Inference-Aware Prompt Optimization for Aligning Black-Box Large Language Models
提示优化方法在对齐黑箱大型语言模型(LLMs)方面已展现出显著成效。与此同时,BEST-OF-N采样、MAJORITY VOTING等推理缩放策略也通过权衡计算资源,有效提升了模型的对齐效果与性能。然而,现有提示优化方法均不考虑推理策略——即优化提示时完全忽略部署阶段所采用的推理策略。这一问题构成了重大的方法论缺口:我们的实证与理论分析表明,提示优化与推理策略这两大范式之间存在强关联性。此外,我们发现用户对多目标权衡及推理预算的偏好,会显著影响提示选择与推理配置的决策。原创 2025-09-28 09:30:00 · 160 阅读 · 0 评论 -
Blackbox Dataset Inference for LLM
本文聚焦于大型语言模型(LLMs)训练中的“数据集滥用”问题(即检测可疑模型是否使用了特定受害者数据集进行训练),提出了一种仅需黑盒访问权限(仅通过文本响应)的数据集推理方法。问题背景:LLM训练常涉及个人信息或受版权保护的材料,引发隐私和法律争议(如《纽约时报》起诉OpenAI)。现有解决方案中,成员推理攻击(MIAs)因数据集规模扩大或数据分布独立同分布(IID)时准确率接近随机猜测而受限;现有数据集推理方法依赖灰盒访问(需中间输出如概率、损失值),实用性不足。核心方法。原创 2025-08-18 10:06:06 · 94 阅读 · 0 评论 -
Nexus: Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving
当前的预填充-解码(PD)解耦通常部署在整个服务引擎层面,为预填充和解码阶段分配独立的GPU。这种方法虽能降低延迟,但需要更多硬件。为提高GPU利用率,“分块预填充”(Chunked Prefill)在同一批次中混合预填充和解码请求,却会导致两阶段间的干扰。尽管现有PD解耦方案将两阶段分离到不同GPU上,但本文提出:能否在单个服务引擎内实现同样的解耦?核心挑战在于当两阶段共享硬件时,如何管理它们冲突的资源需求。本文首先证明,分块预填充请求会因对GPU资源的独特需求而干扰解码请求;原创 2025-08-17 08:30:00 · 263 阅读 · 0 评论 -
OrthoRank: Token Selection via Sink Token Orthogonality for Efficient LLM inference
本文围绕大型语言模型(LLMs)推理效率的优化展开,提出了一种基于sink token正交性的动态token选择方法OrthoRank,以降低计算成本并保持模型性能。核心观察分析发现,在LLMs中,sink token(通常为输入序列的第一个token)的归一化隐藏状态在深层中几乎不变,而其他token的归一化隐藏状态与sink token的余弦相似度随层数加深逐渐增加,即其他token在不断向sink token“靠近”。OrthoRank方法。原创 2025-08-14 09:15:00 · 41 阅读 · 0 评论 -
Blackbox Dataset Inference for LLM
本文聚焦于大型语言模型(LLMs)训练中的“数据集滥用”问题(即检测可疑模型是否使用了特定受害者数据集进行训练),提出了一种仅需黑盒访问权限(仅通过文本响应)的数据集推理方法。问题背景:LLM训练常涉及个人信息或受版权保护的材料,引发隐私和法律争议(如《纽约时报》起诉OpenAI)。现有解决方案中,成员推理攻击(MIAs)因数据集规模扩大或数据分布独立同分布(IID)时准确率接近随机猜测而受限;现有数据集推理方法依赖灰盒访问(需中间输出如概率、损失值),实用性不足。核心方法。原创 2025-08-11 14:30:00 · 26 阅读 · 0 评论 -
HGCA: Hybrid GPU-CPU Attention for Long Context LLM Inference
本文针对大型语言模型(LLMs)长上下文推理中GPU内存受限(尤其是KV缓存随上下文增长而膨胀)的问题,提出了一种混合CPU-GPU注意力机制HGCA。计算分工:在GPU内存中保留近期生成的KV条目,对其执行密集注意力计算;在CPU内存中存储选定的重要KV条目,对其执行并行稀疏注意力计算。结果融合:通过log-sum-exp融合策略高效合并GPU和CPU的注意力输出,最大限度减少PCIe传输开销。稀疏化策略。原创 2025-08-05 11:30:00 · 90 阅读 · 0 评论 -
FlowSpec: Continuous Pipelined Speculative Decoding for Efficient Distributed LLM Inference
分布式推理是在网络边缘实现大型语言模型(LLMs)推理的一种很有前景的方法。它将推理过程分配到多个设备上,以确保LLMs能够适配设备内存。近年来,基于流水线的方法有望实现通信与计算的并行化,从而减少推理延迟。然而,当网络边缘的推理请求稀疏时,这种优势会减弱,因为此时流水线的利用率通常较低。为了在边缘实现高效的分布式LLM推理,我们提出了FlowSpec,一种基于流水线并行的树结构投机解码框架。原创 2025-08-06 08:30:00 · 63 阅读 · 0 评论 -
Dissecting the Impact of Mobile DVFS Governors on LLM Inference Performance and Energy Efficiency
问题发现:当前移动设备的CPU、GPU和内存调控器独立工作,缺乏协调,导致LLM推理的延迟和能效表现不佳。在相同能耗下,默认调控器的预填充和解码延迟比最优频率组合最多高40.4%;在相同延迟下,能耗最多高16.6%。原因分析:通过控制实验发现,独立调控器存在两大问题:(1)单独工作时,CPU和GPU调控器倾向于选择过低频率,导致延迟增加;(2)协同工作时,CPU和GPU调控器会触发“向下螺旋”效应——相互促使对方降低频率,进一步恶化性能。解决方案。原创 2025-07-18 09:00:00 · 179 阅读 · 0 评论 -
Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache
大语言模型(LLMs)在处理长上下文时,键值(KV)缓存的内存需求呈线性增长,成为资源受限环境下部署的瓶颈。现有KV缓存压缩方法(如标记淘汰、量化、低秩投影等)多将头部维度同质化处理,或依赖注意力引导策略,导致准确性下降或计算开销增加。随着上下文长度增加,大语言模型面临键值(KV)缓存不断增长的内存需求挑战。现有压缩方法对头部维度进行同质化处理或依赖注意力引导的标记修剪,通常会牺牲准确性或引入计算开销。原创 2025-07-08 09:30:00 · 124 阅读 · 0 评论 -
SkyLB: A Locality-Aware Cross-Region Load Balancer for LLM Inference
一、主要内容本文针对多区域大规模语言模型(LLM)推理服务中资源利用率低、成本高的问题,提出了跨区域负载均衡器SkyLB。传统区域本地部署方式需为每个区域按峰值需求配置资源,导致资源浪费;而简单的集中式负载均衡又会引入高延迟。两层跨区域路由架构:每个区域部署本地负载均衡器,协同处理跨区域流量,避免集中式瓶颈。前缀感知路由机制:通过一致性哈希(SkyLB-CH)和区域前缀树快照(SkyLB)维护键值缓存(KV-Cache)局部性,提升缓存命中率。基于待处理请求的选择性推送。原创 2025-06-30 09:36:05 · 173 阅读 · 0 评论 -
SALE : Low-bit Estimation for Efficient Sparse Attention in Long-context LLM Prefilling
研究背景与问题:长上下文LLM应用中,自注意力模块在预填充阶段因二次时间复杂度成为瓶颈。现有稀疏注意力方法多采用粗粒度检查,导致模型精度显著损失。SALE方法核心三阶段处理流程:通过量化(4位查询-键乘积)、选择阶段(块稀疏注意力掩码构建)和计算阶段(仅计算重要块)实现高效稀疏注意力。相对注意力分数(Relative Attention Score):基于“sink-local”区域(序列首尾)的注意力权重相对大小评估重要性,动态调整稀疏度。硬件优化。原创 2025-06-18 09:30:00 · 156 阅读 · 0 评论 -
XGRAMMAR: FLEXIBLE AND EFFICIENT STRUCTURED GENERATION ENGINE FOR LARGE LANGUAGE MODELS
主要内容本文提出了XGrammar,一个针对大语言模型(LLM)的灵活高效结构化生成引擎,旨在解决上下文无关文法(CFG)在约束解码中效率低下的问题。词汇分类与缓存:将词汇分为上下文无关token(可预检查)和上下文相关token(运行时解释),构建自适应令牌掩码缓存,减少运行时检查开销。上下文扩展:通过预计算规则的扩展后缀,过滤无效的上下文相关令牌,进一步减少运行时处理量。持久化栈机制:设计高效的持久化执行栈,支持状态分支和回滚,加速上下文相关令牌的检查。与LLM推理引擎协同设计。原创 2025-06-17 09:30:00 · 370 阅读 · 0 评论 -
LLM Inference Enhanced by External Knowledge: A Survey
外部知识分类非结构化数据:包括文本、图像、音视频等,需通过NLP、计算机视觉等技术提取信息,虽丰富但存在预处理成本高、易引入噪声等问题。结构化数据表格:以行列形式组织数据,适用于事实验证、数值推理等任务,整合方法包括符号推理(如Text-to-SQL)、神经推理(如Chain-of-Table)和混合推理(如H-STAR)。知识图谱(KGs):以三元组形式表示实体关系,支持多跳推理,整合策略分为松耦合(如CoK、RRA)和紧耦合(如ToG、PoG)。整合方法与性能对比表格整合。原创 2025-06-13 09:30:00 · 93 阅读 · 0 评论 -
HEXGEN-TEXT2SQL: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL Workflows
本文聚焦于基于大语言模型(LLM)的智能文本到SQL系统在异构GPU集群中的调度与执行问题,提出了HEXGEN-TEXT2SQL框架,旨在解决多阶段工作流、严格延迟约束和资源异构性带来的挑战。问题分析:现有LLM服务框架无法有效处理文本到SQL工作流中的任务依赖、延迟变化和资源异构性,导致服务级别目标(SLO)频繁违反。框架设计分层调度策略:全局负载均衡调度器根据模型实例的处理能力和当前负载分配任务;本地优先级队列基于任务紧迫性动态调整执行顺序,支持任务抢占。轻量级仿真调参。原创 2025-05-28 09:30:00 · 207 阅读 · 0 评论 -
Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM
基于Transformer的模型是现代机器学习的基础,但其执行过程(尤其是大语言模型(LLM)的自回归解码阶段)因频繁的内存访问和不断增长的键值(KV)缓存,给内存系统带来了巨大压力,形成内存带宽瓶颈,且随着上下文长度的增加,这一问题愈发严重。处理内存(PIM)架构因具备高内部带宽和内存附近的计算并行性,成为颇具前景的解决方案。然而,现有PIM设计主要针对密集注意力优化,难以应对现代KV缓存稀疏技术引入的动态、不规则访问模式,导致工作负载不平衡,降低吞吐量和资源利用率。原创 2025-05-21 09:30:00 · 283 阅读 · 0 评论 -
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length
原创 2025-05-14 09:30:00 · 190 阅读 · 0 评论 -
Inference-Time Scaling for Generalist Reward Modeling
强化学习(RL)已大规模应用于大语言模型(LLMs)的后训练。最近,通过RL激励LLMs的推理能力表明,合适的学习方法可以实现有效的推理时可扩展性。RL的一个关键挑战是为LLMs在各种领域(超出可验证问题或人工规则)中获得准确的奖励信号。在这项工作中,我们研究如何通过更多的推理计算来改进通用查询的奖励建模(RM),即通用RM的推理时可扩展性,以及如何通过合适的学习方法提高性能 - 计算缩放的有效性。对于RM方法,我们采用点向生成式奖励建模(GRM),以实现对不同输入类型的灵活性和推理时缩放的潜力。原创 2025-05-07 09:30:00 · 358 阅读 · 0 评论 -
ReaLM: Reliable and Efficient Large Language Model Inference with Statistical Algorithm-Based Fault
本文提出ReaLM框架,首次通过大规模错误注入实验系统分析LLM的容错特性,提出基于统计的ABFT算法,并定制低成本在线错误检测电路。基于此,设计了统计ABFT算法和低成本检测电路,在保持模型性能的同时,实现最高35.83%的能效提升。本文提出ReaLM框架,首次系统性分析LLM的容错特性,发现归一化操作后的组件对错误更敏感,并揭示错误频率与幅度的权衡关系。本文提出了一种名为ReaLM的算法/电路协同设计框架,旨在通过利用大型语言模型(LLM)的固有容错性,实现高效且可靠的LLM推理。原创 2025-04-28 09:30:00 · 532 阅读 · 0 评论 -
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
我们研究了一种新的语言模型架构,该架构能够通过潜在空间中的隐式推理来缩放测试时间计算。我们的模型通过迭代一个循环块来工作,从而在测试时展开到任意深度。这与通过产生更多token来扩展计算的主流推理模型形成鲜明对比。与基于思维链的方法不同,我们的方法不需要任何专门的训练数据,可以在小的上下文窗口中工作,并且可以捕获不易用语言表示的推理类型。我们将概念验证模型扩展到35亿个参数和8000亿个token。我们证明,由此产生的模型可以提高其在推理基准上的性能,有时甚至可以显著提高,计算负载相当于500亿个参数。原创 2025-02-23 10:00:00 · 146 阅读 · 0 评论 -
Extending Language Model Context Up to 3 Million Tokens on a Single GPU
在现代大型语言模型(LLM)中,处理非常长的上下文长度带来了重大挑战,因为它会导致推理速度减慢和内存成本增加。此外,大多数现有的预训练LLM无法超越其原始训练序列长度。为了实现高效实用的长上下文利用,我们引入了InfiniteHiP,这是一种新颖实用的LLM推理框架,通过模块化分层token修剪算法动态消除不相关的上下文token来加速处理。我们的方法还允许通过根据LLM内的内部注意力模式选择性地应用各种RoPE调整方法来泛化更长的序列。原创 2025-02-23 09:00:00 · 88 阅读 · 0 评论 -
KunServe: Elastic and Efficient Large Language Model Serving with Parameter-centric Memory
大型语言模型(LLM)服务的有状态特性可以在负载突发或长时间生成请求(如思维链推理)下轻松限制宝贵的GPU内存,从而由于排队传入请求而导致延迟尖峰。然而,最先进的以KVCache为中心的方法通过丢弃、迁移或交换KVCache来处理负载尖峰,这面临着正在进行的请求与传入请求的性能之间的重要权衡,因此仍然严重违反了SLO。本文进行了一项关键观察,即模型参数独立于请求,并在GPU上复制,因此提出了一种以参数为中心的方法,通过选择性地丢弃复制的参数,为请求留下宝贵的内存。原创 2025-01-31 09:00:00 · 454 阅读 · 0 评论 -
A Survey on Large Language Model Acceleration based on KV Cache Management
大型语言模型(LLM)因其理解上下文和执行逻辑推理的能力,彻底改变了自然语言处理、计算机视觉和多模态任务等广泛领域。然而,LLM的计算和内存需求,特别是在推理过程中,在将其扩展到现实世界、长上下文和实时应用程序时带来了重大挑战。键值(KV)缓存管理已成为一种关键的优化技术,通过减少冗余计算和提高内存利用率来加速LLM推理。本调查全面概述了LLM加速的KV缓存管理策略,将其分为token级、模型级和系统级优化。原创 2025-01-28 09:00:00 · 647 阅读 · 0 评论 -
FTP: A FINE-GRAINED TOKEN-WISE PRUNER FOR LARGE LANGUAGE MODELS VIA TOKEN ROUTING
最近,大型语言模型(LLM)通过遵守缩放定律,在各种任务中表现出卓越的性能,这大大增加了模型的大小。然而,推理过程中巨大的计算开销阻碍了在工业应用中的部署。许多工作利用传统的压缩方法来增强模型推理,但这些方法总是会引入额外的训练成本来恢复性能,并且当目标是特定水平的加速时,修剪结果通常会显示出与原始模型相比明显的性能下降。原创 2025-01-20 09:15:00 · 202 阅读 · 0 评论 -
Hansel: Output Length Controlling Framework for Large Language Models
尽管大型语言模型(LLM)取得了巨大成功,但有效控制输出序列的长度仍然是一个挑战。本文中,我们提出了Hansel,这是一种在不影响LLM生成能力的情况下进行长度控制的有效框架。Hansel利用周期性输出的隐藏特殊token来跟踪输出序列的剩余目标长度。结合避免输出突然终止的技术,这种看似简单的方法被证明是有效和通用的,同时不会损害生成文本的连贯性和流畅性。该框架可以在模型的微调阶段应用于任何预训练的LLM,而不管其原始的位置编码方法如何。原创 2025-01-15 10:15:00 · 388 阅读 · 0 评论 -
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive
在最小起草延迟和高推测准确性之间取得最佳平衡,以提高大型语言模型的推理速度,仍然是推测解码中的一个重大挑战。本文介绍了Falcon,这是一种创新的半自回归推测解码框架,旨在增强起草者的并行性和输出质量。Falcon采用了耦合顺序扫视蒸馏技术,该技术加强了同一区块内的token间依赖关系,从而提高了猜测的准确性。我们提供了一个全面的理论分析来阐明潜在的机制。原创 2025-01-14 09:15:00 · 258 阅读 · 0 评论 -
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator
大型语言模型(LLM)在一系列自然语言处理任务中表现出了卓越的性能。然而,由于其二次复杂性,它们的巨大尺寸带来了相当大的挑战,特别是在计算需求和推理速度方面。在这项工作中,我们发现了一个关键模式:与语义上有意义的token相比,某些看似无意义的特殊token(即分隔符)对注意力得分的贡献不成比例。这一观察表明,这些分隔符token之间的段的信息可以有效地压缩到分隔符token本身中,而不会丢失大量信息。原创 2025-01-08 15:53:09 · 243 阅读 · 0 评论 -
SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language Models
大型语言模型(LLM)已经证明了其卓越的能力,但它们的输出有时可能不可靠或事实不正确。为了解决这个问题,我们引入了Self-Logits进化解码(SLED),这是一种新的解码框架,可以增强LLM的真实性,而不依赖于外部知识库或需要进一步的微调。从优化的角度来看,我们的SLED框架通过对比最后一层和早期层的输出逻辑,利用了LLM中嵌入的潜在知识。然后,它利用近似梯度方法使潜在知识能够指导输出的自我细化,从而有效地提高了事实的准确性。原创 2025-01-05 10:15:00 · 187 阅读 · 0 评论 -
SUFFIXDECODING: A MODEL-FREE APPROACH TO SPEEDING UP LARGE LANGUAGE MODEL INFERENCE
我们提出了 SuffixDecoding,这是一种新颖的无模型方法,可通过推测解码加速大语言模型 (LLM) 推理。与依赖草稿模型或专门解码头的现有方法不同,SuffixDecoding 利用根据先前生成的输出构建的后缀树来有效预测候选token序列。我们的方法可以实现灵活的树结构推测,而无需维护和编排额外模型的开销。SuffixDecoding 构建并动态更新后缀树以捕获生成文本中的模式,并使用它们通过基于经验token频率的原则评分机制构建推测树。原创 2024-12-12 10:00:00 · 142 阅读 · 0 评论 -
STAR ATTENTION: EFFICIENT LLM INFERENCE OVER LONG SEQUENCES
由于自注意机制的二次复杂性,使用基于Transformer的大语言模型(LLM)对长序列进行推理既昂贵又缓慢。我们引入了Star Attention,这是一种两阶段块稀疏近似,通过在多个主机上分散注意力来提高计算效率,同时最大限度地减少通信开销。在第一阶段,使用跨主机的块本地注意力并行处理上下文。在第二阶段,查询和响应token通过序列全局关注来处理所有先前缓存的token。原创 2024-12-03 09:15:00 · 481 阅读 · 0 评论 -
SAM Decoding: Speculative Decoding via Suffix Automaton
大型语言模型(LLM)通过将任务统一到文本生成中,彻底改变了自然语言处理,但它们的大参数大小和自回归特性限制了推理速度。SAM解码通过引入一种新的基于检索的推测解码方法来解决这个问题,该方法使用后缀自动机来高效准确地生成草稿。与现有方法使用的n元语法匹配不同,SAM解码在生成文本和文本语料库时找到最长的后缀匹配,每生成一步的平均时间复杂度为O1O1。SAM解码分别为文本语料库和输入提示构建静态和动态后缀自动机,实现快速准确的草稿生成。原创 2024-12-01 09:00:00 · 171 阅读 · 0 评论 -
Inference Acceleration for Large Language Models on CPUs
近年来,大型语言模型在各种自然语言处理(NLP)任务中表现出了卓越的性能。然而,为现实世界的应用程序部署这些模型通常需要高效的推理解决方案来处理计算需求。本文探讨了如何利用CPU加速大型语言模型的推理。具体来说,我们引入了一种并行方法,通过1)利用现代CPU架构的并行处理能力,2)对推理请求进行批处理来提高吞吐量。我们的评估显示,加速推理引擎每秒生成的token提高了18-22x。序列越长,模型越大,提高幅度越大。原创 2024-10-07 10:00:00 · 437 阅读 · 0 评论 -
Explicit Inductive Inference using Large Language Models
据报道,大型语言模型 (LLM) 在推理任务上存在不良证明偏差:当被要求预测前提 P 是否包含假设 H 时,LLM 倾向于使用脱离上下文的假设 H,而不是考虑 P 所包含的 H 的条件真实性。H 作为脆弱代理的真值标签。在本文中,我们提出了一种利用这种偏差进行显式归纳推理的管道。我们的管道使用LLM将前提转换为一组经过验证的替代方案,然后汇总派生的新蕴涵查询的答案以支持原始推理预测。在定向谓词蕴涵基准上,我们证明,通过应用这个简单的管道,我们可以提高LLM在推理方面的整体性能,并大大减轻其证明偏差的影响。原创 2024-09-26 10:02:47 · 327 阅读 · 0 评论 -
Break the Sequential Dependency of LLM Inference Using LOOKAHEAD DECODING
大型语言模型(LLM)的自回归解码是内存带宽受限的,导致高延迟和现代加速器并行处理能力的严重浪费。现有的加速LLM解码的方法通常需要一个草稿模型(例如推测解码),这很难获得,也无法推广。本文介绍了LOOKAHEAD DECODING,这是一种精确的并行解码算法,可以加速LLM解码,而不需要辅助模型或数据存储。它允许按步骤交易日志(FLOP)来减少总解码步骤的数量,在单个或多个现代加速器上更具并行性,并且与并发内存高效注意力(例如FlashAttention)兼容。原创 2024-09-23 10:39:25 · 333 阅读 · 0 评论 -
Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
从强语言模型(LM)中训练高质量的合成数据是提高LM推理性能的常见策略。在这项工作中,我们重新审视了这种策略在固定推理预算(例如FLOP)下是否是计算最优的。为此,我们研究了使用更强但更昂贵的(SE)模型与较弱但更便宜的(WC)模型生成合成数据之间的权衡。我们评估了三个关键指标的生成数据:覆盖率、多样性和假阳性率,并表明来自WC模型的数据可能具有更高的覆盖率和多样性,但也表现出更高的假阳性率。原创 2024-09-20 10:37:15 · 177 阅读 · 0 评论 -
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
使LLM能够通过使用更多的测试时间计算来提高其输出,是构建可以在开放式自然语言上运行的一般自我改进代理的关键一步。在本文中,我们研究了LLM中推理时间计算的缩放,重点回答了一个问题:如果允许LLM使用固定但非微不足道的推理时间计算量,它在具有挑战性的提示下能提高多少性能?回答这个问题不仅对LLM的可实现性能有影响,而且对LLM预训练的未来以及如何权衡推理时间和预训练计算也有影响。尽管它很重要,但很少有研究试图了解各种测试时间推理方法的缩放行为。此外,目前的工作在很大程度上为其中一些策略提供了负面结果。原创 2024-09-20 10:16:46 · 786 阅读 · 0 评论
分享