步子哥-优快云博客

原创探索微代理的秘密：OpenHands 的智能扩展新篇章

在当今软件开发不断追求高效与自动化的时代，开发者们总是在寻找能够让日常工作变得更加流畅、自动化程度更高的新工具。而在这一场技术革新中，OpenHands 平台为我们带来了一款极具魅力的产品——微代理（MicroAgents）。这些微代理通过精心设计的特定领域提示，不仅能让开发工作井然有序，还能为我们提供专家级的指导，自动化常见任务，并确保项目中每一步操作都能遵循最佳实践。本文将以深入浅出的方式，为你揭示 OpenHands 微代理的奥秘及其在多种开发场景下的应用，带你走进这扇充满智慧与可能性的未来之门。在常

2025-04-01 23:44:04 329

原创全能智能：开启 All Hands AI 的智慧新时代

All Hands AI 的主页以简洁明了的设计、清晰易懂的语言向全世界展示了它的核心价值和前沿理念。通过灵活的微代理系统与高效提示构建全方位智能平台，它为开发者提供了一个集上下文、流程指导与交互体验于一体的全能助手。无论你是在探索单个功能的细节，还是希望整体提升团队协作效率，在 All Hands AI 的生态中都能找到最适合的解决方案与工具。这不仅是一款工具的诞生，更预示着未来软件开发将迎来一个“人机协同、智能共创”的新时代。

2025-04-01 23:33:11 409

原创探秘 OpenHands：微代理与高效提示的奇妙冒险

在科技的丛林里，有一种神奇的存在，它们能洞悉代码的深层秘密、化繁为简地指导开发流程，并在千头万绪的问题中提供清晰的解答。它们叫做“微代理”（Microagents）。今天，我们就走进 OpenHands 的微代理世界，探索如何利用这些微型专家以及高效提示（Prompting）最佳实践，赋能我们的开发体验，打造一个既智能又高效的代码生态系统。

2025-04-01 23:15:32 545

原创追踪思维的轨迹：解码语言模型的认知机制

在人工智能的快速发展中，语言模型的思维过程如同一扇窗，透视着机器如何理解和生成语言。Anthropic的研究《追踪语言模型的思考轨迹》为我们打开了这一扇窗，揭示了语言模型的认知机制。本文将深入探讨研究中的三层递进式理解，带您领略语言模型的思维之美。

2025-04-01 20:28:51 630

原创探索语言模型的潜力：测试时缩放的全景调查

这些模型通过训练时的计算扩展，吸收了海量的数据和参数，展现出惊人的通用智能。然而，随着对训练时扩展的热情逐渐减退，如何在推理时充分挖掘这些模型所蕴含的智能，成为了一个亟待解决的核心挑战。评估 TTS 方法的效果可以从多个维度进行，包括性能（Performance）、效率（Efficiency）、可控性（Controllability）和可扩展性（Scalability）。尽管 TTS 方法在推理密集型任务中展现出巨大的潜力，但仍面临许多挑战，包括如何提高覆盖率、优化推理过程、增强模型的自我纠错能力等。

2025-04-01 19:02:05 326

原创探索推理经济：大型语言模型的高效推理之道

此外，强化学习的奖励信号设计也在不断演进，研究者们正在探索如何平衡过程奖励模型（PRM）与结果奖励模型（ORM）之间的关系，以提高模型的适应性和推理能力。此外，代理推理的研究也在不断深入，利用强化学习等技术提升AI代理的推理能力。通过对推理经济的深入分析，我们希望为未来的研究提供结构化的路线图与可行的策略，促进更可持续和可扩展的推理模型的发展。：针对长度偏见的优化，如长短奖励（Long2short RL）方法，通过设计更复杂的奖励模型来更好地区分响应的质量与长度，从而减少冗余内容的生成。

2025-04-01 18:55:00 1031

原创超智能的战略：在AI时代的国家安全新篇章

这一概念类似于冷战时期的核互相确保毁灭（Mutual Assured Destruction, MAD），即任何国家如果试图单方面追求AI的战略垄断，其他国家将采取预防性破坏措施。AI技术的进步可能改变经济和军事力量的基础，国家之间的竞争将愈加激烈。拥有先进AI芯片的国家将能够在经济上占据优势，而在军事上，AI的应用将使得战争的形态发生根本性变化。面对超智能AI带来的机遇与挑战，各国必须采取务实的战略，以确保国家安全。各国应当投资于国内高端AI芯片的制造，以确保供应链的韧性，避免对外部供应的依赖。

2025-03-31 23:56:43 544

原创探索神经网络的边界：元素级层归一化的崭新视角

在现代深度学习的世界中，归一化技术如同一位无形的魔法师，悄然改变着模型的训练过程。归一化层的引入，不仅加速了模型的收敛速度，还提升了其稳定性和性能。本文将深入探讨一种新兴的归一化方法——元素级层归一化（Elementwise Layer Normalization, ELN），并与动态双曲正切（Dynamic Tanh, DyT）进行对比，揭示其背后的理论基础和实际应用。

2025-03-31 02:01:22 234

原创解锁智能的钥匙：DAPO算法与大规模强化学习的未来

在人工智能的快速发展中，如何提升大型语言模型（LLMs）的推理能力一直是研究者们关注的焦点。随着推理能力的提升，LLMs在复杂任务中的表现也愈加出色。然而，关于这些先进模型的训练细节却常常被掩盖，使得研究者们在复现这些结果时面临重重困难。在这篇文章中，我们将探讨一种新的开源强化学习系统——DAPO（Decoupled Clip and Dynamic sAmpling Policy Optimization），它不仅提升了LLMs的推理能力，还为未来的研究提供了宝贵的资源。

2025-03-31 01:55:42 217

原创穿越数字森林：Llama 推理的奇幻之旅

通过以上的探讨，我们从数学公式推导、内存管理策略到具体的批处理与成本权衡，全面剖析了 Llama-2-70B 推理过程中那些令人惊叹的技术细节。可以看出，这款模型在处理 prompt-heavy 任务时展现了无与伦比的成本优势，但在生成 token 的过程中，又因为内存瓶颈问题而显得步履艰难。这种成绩单上的“矛盾”，正反映出当前 AI 技术在硬件与算法之间寻求平衡的不易。对于研发者和企业而言，选择合适的模型往往需要在即时响应、成本效益和系统稳定性之间做出精准的权衡。

2025-03-31 00:00:00 750

原创梦幻音语：探索 Orpheus-3B 0.1 Finetuned TTS 的奇妙语音宇宙

除了精细的语音克隆，Orpheus-3B 0.1 Finetuned 模型还引入了“引导情感和语调控制”的概念，让用户能够通过简单的标签，自由调控生成语音中的情感色彩。无论你希望声音表达兴奋、平静、温柔或严肃，只需在文本中加上一些情感提示，模型便会调整语音的节奏、重音和语调，传达出相应的情感状态。这种情感引导不仅提升了用户与 AI 交互时的体验，更为多种创意应用场景打开了大门。例如，在有声小说、广告配音、动画配音等领域，不同的情感语调直接决定了内容的感染力和表现力度。

2025-03-31 00:00:00 1026

原创探险之旅：当预训练“越火热”下游反而失宠

在人工智能的星空中，大型语言模型就像一艘满载知识的飞船，人们长期以来相信“越多数据，越好”——预训练过程中投入的每一点标记（token）都能转化为更好的基础性能，最终在微调（后训练）中表现得更为卓越。然而，最新研究却揭示了一个耐人寻味的悖论：扩展预训练规模不仅不能确保下游任务能力的提升，反而可能使得模型在微调阶段变得更加脆弱，最终呈现出性能下降的“灾难性过训练”现象。正如登山者在不断累积装备后，由于负重过大反而难以攀登陡峭山巅，这一现象引发了我们对预训练设计方法的深思与重新审视。

2025-03-31 00:00:00 829

原创穿越提示迷宫：探索与回归驱动的提示设计之旅

Prompt Exploration with Prompt Regression》这篇论文为提示工程领域注入了一剂强心针，它不仅提出了基于回归与优化的提示组合方法，还通过丰富的实验数据证明了该方法在不同任务下的适用性和高效性。从数学模型到实际应用，整个框架既具备理论严谨性，也具备实践可操作性。利用数学建模来预测提示组合对输出的影响，可以有效降低海量提示搜索的计算代价。基于参考生成数据与人类偏好的不同建模（分别对应 PEPR-R 与 PEPR-P），能够针对不同应用场景进行灵活选择。

2025-03-31 00:00:00 663

原创 LLM五子棋风云录：当AI遇上古老棋局

五子棋，这个规则简单却蕴含无限策略的棋盘游戏，自古以来就深受人们喜爱。如今，随着人工智能技术的飞速发展，我们开始探索如何让AI也能像人类一样，在棋盘上运筹帷幄，决胜千里。本文将带您走进一个基于大型语言模型的五子棋AI系统——LLM-Gomoku，看看它是如何通过自我对弈和强化学习，一步步提升棋艺的。

2025-03-31 00:00:00 620

原创记忆的魔法：MemInsight如何让LLM Agent更上一层楼

在事件总结任务中，MemInsight能够从对话中提取关键事件，并生成简洁明了的总结。这表明MemInsight能够理解对话的内容，并抓住重点。

2025-03-30 10:56:19 1005

原创当AI遇上五子棋：一场智慧与策略的华丽冒险

此外，我们将探索使用先进的深度强化学习模型，例如Deep Deterministic Policy Gradient，或者使用多智能体系统，以进一步提高模型在复杂游戏情况下的思维能力。其次，在策略和分析逻辑的选择中，为了简化推理过程，本研究每次仅选择一种策略和一种分析逻辑进行思考，这在一定程度上限制了模型游戏分析的全面性和深度。我们的研究旨在开发一个基于大型语言模型的五子棋AI系统，使其能够像人类玩家一样理解和应用五子棋策略和逻辑，从而在游戏中做出合理有效的决策。那么，LLM-Gomoku是如何炼成的呢？

2025-03-30 10:46:23 840

原创穿越智慧风暴：三个跃迁的智能爆炸之旅

在这场未来可能席卷全球的智能革命面前，我们既可以保持科学探索的激情，也需审慎思考其背后潜藏的社会、经济和政治变革。通过对软件、芯片技术与芯片生产三大反馈循环的解析，我们不仅勾勒出了多种智能爆炸的情景设想，更看到了未来伦理、国际合作与权力平衡诸多难题的影子。或许，在不久的将来，随着AI技术自我迭代和不断突破，我们将见证一场由内而外、由微观至宏观的智能风暴。它不仅会重新定义计算能力的极限，也会引导整个社会朝着全新的科技生态迈进。

2025-03-30 00:23:40 542

原创跨越数学与 AI 的奇幻世界：DSPy 的奥秘之旅

DSPy 并非仅仅是一个简单的工具，它是一把多功能的魔法棒，能够将复杂的数学问题转化为算法可以理解的指令。借助 DSPy，我们可以构建链式思考模块，从“问题”到“答案”之间搭起一座沟通桥梁。正如数学家们那深入浅出的推理过程，DSPy 通过 Modules 模块、Language Models 及 Evaluation 模块，将数学问题批判性地分解、解析，最终得出精确的推理结果。在 DSPy 的世界里，每一个数学问题都被当作解决谜题的钥匙。

2025-03-30 00:00:54 1116

原创星际智慧之旅：记忆赋能与自我进化的MARS框架探秘

MARS框架带给我们的不仅仅是一种新的人工智能算法，更是一种颠覆传统思维的创新理念。它通过引入多智能体协同、不断反思与自我进化机制，使得AI在复杂任务中不断进化，具备了在长程交互和连续决策挑战下稳定、高效运行的能力。在这个充满无限可能的智能新时代，MARS的成功实践为我们展示了一条从有限记忆到无限智慧的精彩进化之路。正如星际探索中每一艘飞船的进化，都离不开精密的导航系统与不断调整的飞行策略；而MARS正以其独特的记忆与自我反思机制，为人工智能搭建了一座通向未来的桥梁。

2025-03-30 00:00:00 829

原创从冗长沉思到凝练智答：智慧模型融合的秘密对话

综合全文，我们可以看到，模型融合作为一种全新的策略，有效破解了大型语言模型繁冗回答与高效推理间的矛盾。一方面，通过任务向量、SVD 分解和激活基方法，研究者们实现了在保留系统2深度推理优势的同时，将回答长度缩短50%以上的目标；另一方面，不同模型规模下的实验结果也突显了小模型在复杂任务中仍存在局限，而大模型则在回答凝练上面临新的挑战，这些都为未来的深度融合提供了宝贵的经验和指引。

2025-03-30 00:00:00 526

原创穿越令牌的迷宫：近似似然匹配下的跨令牌器知识传递之路

总的来说，这项工作为跨令牌器蒸馏打开了全新的局面。通过纯蒸馏目标、令牌片段对齐、多项二值化散度设计以及针对令牌化偏差的细致讨论，ALM 方法不仅在理论上构建了一个稳固基础，更在实验上展现出令人瞩目的性能提升——无论是将模型从一种子词体系转移到另一种系统，还是实现从子词到字节级的跨越；无论是单一模型自蒸馏的场景，还是大到小模型知识传递的严苛考验，ALM 均展示出强大的适应性和实用性。这项工作不仅为研究者提供了一套工具，用于实现更高效、跨令牌器的知识传递，也为后续更复杂、更大规模模型之间的组合铺平了道路。

2025-03-30 00:00:00 545

原创启示与批判：在强化学习中寻找‘Aha时刻’的秘密

在人工智能和机器学习的广阔天地中，大规模语言模型的进化吸引了无数研究者的目光。从预训练到强化学习调优，每一步都充满着惊喜与陷阱。近年来，一种被称为 R1-Zero 的训练范式正悄然崛起。**它主张在后训练阶段，直接将强化学习（RL）应用于预训练基础模型，而不依赖于监督微调（SFT）这一中间环节。**如此简洁的流程不仅省去了繁琐的标注步骤，更意外地激发出模型自我反思、长链推理等“深藏不露”的潜在能力——也就是所谓的“Aha时刻”。然而，正如俗话所说：“天下没有免费的午餐”，这套方法背后究竟有哪些隐患与偏差？本

2025-03-30 00:00:00 841

原创【SWI-EVO】解题示例

通过这个具体计算过程，我归纳出解决此类问题的一般规律：当干物质保持不变时，含水率的变化会导致总重量的变化，而总重量的变化又决定了需要晒掉的水分量。因此，最合理的解释是：需要晒掉500kg的水，使总重量从1000kg减少到500kg，同时含水量从99%降低到98%。我的意图是综合多种思考策略的最佳结果，提供一个全面、准确的最终解决方案。我的意图是综合多种思考策略的最佳结果，提供一个全面、准确的最终解决方案。关键洞察：在晒干过程中，只有水分会蒸发，干物质的重量保持不变。考虑所有可能的解释，评估最合理的可能性…

2025-03-29 23:17:22 747

原创潜意识的指挥棒：如何用“隐动作”驯服大语言模型

想象你在开车，手握方向盘，脚踩油门，但你并不需要每秒都告诉自己“现在要转动 3 度”“现在要加速 0.1 米/秒²”。这些动作是你大脑中“潜意识”的产物。CoLA 的核心思想正是如此：与其让语言模型每次都在庞大的词汇表中“逐字选词”，不如让它先在一个更小、更抽象的“隐动作空间”中做决策，再由这些动作引导生成具体的词。这就像是给语言模型装上了一个“潜意识控制器”，让它先决定“我要表达什么意图”，再由语言世界模型（Language World Model）来翻译成具体的语言输出。

2025-03-29 22:59:45 663

原创智能体的觉醒：大语言模型如何学会思考、协作与进化

当语言模型不再只是回答问题，而是开始制定计划、调用工具、与其他模型协作并自我优化时，我们或许正站在通用人工智能的门槛上。

2025-03-29 22:53:54 9

原创【SWI意图引导思维分析示例】老师的生日

这节课，老师教了同学们有关推理的技巧。为了掌握教学情况，老师在黑板上写下了几个日期：4月1日，4月4日，4月12日；5月2日，5月3日，5月4日，5月7日，5月8日，5月11日；6月4日，6月5日，6月6日，6月12日，6月13日；7月1日，7月5日。老师将自己的生日日期告诉了女同学们，将自己的生日月份告诉了男同学们。老师问同学们：“大家能知道老师的生日是几时吗？女同学都说“不知道”，男同学说“女同学肯定都不知道”女同学说“那我们知道了”，男同学说“那我们也知道了”

2025-03-29 18:51:11 563

原创【SWI意图引导思维分析示例】人拿着1根5米长度的竹竿，是否可以通过2米 x 2米的门？

我的意图是理解并解决这个问题，通过说出我的意图来引导每一步思考，确保解题过程清晰、有条理且符合逻辑。

2025-03-29 18:16:06 640

原创【SWI意图引导思维分析示例】树龄问题

我的意图是理解并解决这个问题，通过说出我的意图来引导每一步思考，确保解题过程清晰、有条理且符合逻辑。

2025-03-29 18:11:50 591

原创语言模型的心声：当AI开始“有意而言”

传统的语言模型生成流程就像是“即兴演出”：你给它一个问题，它立刻开始作答，边走边想。而 SWI 则像是“排练好的剧本”：模型先说出它的意图——也就是它打算如何分析问题、采取哪些步骤——然后再开始执行。这就像是你问一个学生：“2个苹果加3个苹果等于多少？传统模型回答：“5。SWI 模型则会说：“我的意图是将两个数相加以求得总数。2 + 3 = 5。最终答案是5。看似啰嗦，实则深思熟虑。类型数据集样本数新闻约11,000对话约2,000维基教程WikiLingua3,000。

2025-03-29 17:51:21 750

原创思考的代价：大模型如何学会聪明地“少想一点”？

在人类世界里，我们常说“聪明的人不废话”。在模型世界里，我们也希望它们能“少说废话，多说重点”。ηMET∼pTQMDCMDηMET∼pTCMDQMDQ：模型的解题质量（比如准确率、创造力）C：模型为此付出的代价（比如生成了多少 token、用了多少计算资源）η：就是“性价比”——用最少的代价，得到最好的答案所以，一个高效的模型，不是那个“写得最多”的，而是那个“写得刚刚好”的。高效推理不是让模型“少想”，而是让它“想得刚刚好”。

2025-03-29 17:42:20 15

原创高效推理的艺术：以更少的代价展现更高智能

正如作者在文中反复强调：“效率是智能的精髓。”本文回顾了从模型理论、推理阶段的直接优化，到监督微调、强化学习再到预训练的结构革新等多层次策略，全面展现了当前大规模推理模型如何在保证答案准确的前提下，努力压缩多余思维、提升计算效率。我们相信，未来的研究将在跨模态、高可信及实际应用领域探索更多创新途径，为智能模型注入更少的资源消耗与更高的智能表现。无论您是一位研究者、一名 AI 从业者，还是对大模型及其未来充满热情的爱好者，都能在这片横跨理论到实务的广阔天地中找到灵感与方向。

2025-03-29 17:36:57 373

原创思维的代价：大型推理模型的高效推理之路

在 LRM 的语境下，高效推理（Efficient Reasoning）并不是单纯追求生成速度快，而是追求“单位计算资源下的最大智能输出”。ηMET∼pTQMDCMDηMET∼pTCMDQMDηMηM：模型MM的推理效率QMDQMD：模型在任务数据集DD上的解答质量（如准确率、创造性等）CMDCMD：模型完成任务所需的计算成本（如 token 数、FLOPs、延迟等）

2025-03-29 17:30:42 330

原创语言模型的记忆迷宫：知识、幻觉与学习的三阶段旅程

学习不是线性的，而是阶段性的；注意力机制是知识形成的关键；数据分布决定了学习速度；幻觉与知识如影随形；微调新知识可能破坏旧知识。这些发现不仅帮助我们更好地理解语言模型，也为未来的模型训练提供了新策略：如何更聪明地安排数据、如何避免幻觉、如何安全地更新知识库。在人工智能成为我们知识接口的时代，理解它们“知道什么”“怎么知道”以及“何时胡说”——比以往任何时候都更重要。

2025-03-29 17:26:01 627

原创思考的机器人：Embodied-Reasoner 如何学会看、想、动

在一个陌生的厨房里，一位机器人站在角落，面对着一张桌子和一扇紧闭的冰箱门。它的任务是找到一枚钥匙扣，但钥匙扣可能藏在抽屉里，也可能就在桌面上。它该怎么办？这不是一个简单的“看图说话”问题，而是一个需要观察、推理、规划和行动的复杂任务。而这，正是“Embodied-Reasoner”模型所要解决的核心挑战。本文将带您走进这个“会思考的机器人”的世界，探索它如何将视觉搜索、推理与行动三者融合，完成一个又一个复杂的交互式任务。

2025-03-29 17:21:30 21

原创语言模型的秘密房间：解锁“离群维度”的频词魔法

它们的存在不仅是一个数学上的怪现象，更是语言模型在学习语言规律时，自己“发明”的一种预测策略：优先猜测那些最常出现的词。ODs的发现揭示了语言模型内部的一个“秘密机制”：一种专门为频词预测而设的“硬编码模块”。🧩 如果你也曾好奇，为什么语言模型总是“猜中”你要说的“the”，那么现在你知道了：是那些隐藏在模型最后一层的“离群维度”，在默默地推动着这场语言的魔术。在Pythia-12B的训练早期（前500步），几乎没有ODs，但模型已经倾向于预测高频词（如“_the”、“_and”）。

2025-03-29 17:16:11 7

原创语言模型的多重人格：一场关于协作解码的革命

如果单个人无法胜任所有工作，那就请来一群专家。”这句古老的智慧，如今在大型语言模型（LLMs）的世界里，正焕发出新的生命力。

2025-03-29 17:07:32 839

原创遗忘的艺术：如何让大语言模型“选择性失忆”？

在传统的“机器遗忘”（machine unlearning）研究中，目标是让模型忘记某些训练数据的影响，比如删除某个用户的隐私信息。而“技能遗忘”（skill unlearning）则更进一步：我们不只是要删除数据的影响，而是要让模型“不会”某项技能。想象一下，如果一个模型能写出完美的Python代码，但你不希望它再具备这个能力（比如出于安全或合规考虑），你希望它“忘记”如何写代码，但仍然能写诗、解题、讲笑话。这就是技能遗忘的目标。

2025-03-29 16:59:44 601

原创思考的艺术：ReaRAG如何教会大模型更聪明地“查资料”

ReaRAG的出现，标志着大模型从“知识记忆体”向“知识使用者”的转变。它不再是一个死记硬背的学生，而是一个会查资料、会反思、会修正的聪明问答者。在这个信息爆炸的时代，真正的智慧，不是知道所有答案，而是知道如何找到答案。ReaRAG，正朝这个方向迈进。

2025-03-29 16:48:52 57

原创记忆的觉醒：MemInsight 如何让 AI 拥有“回忆”的智慧

在事件摘要任务中，MemInsight 被用于从长对话中提取关键事件。仅使用属性（TL/SL）使用属性 + 原始对话（TL/SL）模型RelevanceCoherence3.273.522.863.293.462.923.053.412.694.304.534.60📌 结论：使用 MemInsight 的增强信息能生成更相关、更连贯的摘要，尤其是在 turn-level 上表现更佳。

2025-03-29 16:29:11 28

原创穿越数据迷宫：DSPy Retrieval-Augmented Generation 的奇幻征程

在大数据时代，我们常常需要在庞大文本库中检索与问题相关的信息，而仅靠一个生成式模型往往不足以回答复杂问题。DSPy 为我们提供了一条融合检索和生成的捷径 —— Retrieval-Augmented Generation (简称 RAG)。本文将带你走进 DSPy 的 RAG 教程，揭示如何配置环境、构建检索器、整合生成模块，并利用 MLflow 追踪实验，打造一款高质量的技术查询问答系统。

2025-03-29 14:00:57 400

Qwen2.5-Omni 论文Word格式

2025-03-27

不要再过度思考了：一项关于对大型语言模型的有效推理

2025-03-23

《从塔楼到尖顶：一次语音魔法的奇幻旅程》

当科技与语言交相辉映，当文本与语音在大语言模型中共舞，我们便迎来了一个全新的时代。本文带您走进SPIRE的世界——一个从纯文本LLM（大语言模型）进化而来的多模态奇迹，通过引入离散语音单元（DSU），使得模型不仅精通翻译，更能准确识别和转换语音。下面，让我们用轻松幽默的笔触来细诉这一激动人心的旅程，探索这座由TOWER到SPIRE的高塔构筑，如何在语音与文本间架起一座坚实的桥梁。

2025-03-14

TokenButler- Token Importance is Predictable.docx

大型语言模型（LLMs）依赖于键值（KV）缓存来存储标记历史，从而实现标记的有效解码。随着KV缓存的增长，它成为主要的内存和计算瓶颈。然而，有机会缓解这一瓶颈，特别是因为先前的研究表明，只有很小一部分标记在每个解码步骤中都有意义地贡献。寻找这些关键标记的主要挑战在于它们是动态的，并且严重依赖于输入查询。现有的方法要么冒着质量风险永久驱逐标记，要么保留完整的KV缓存，但在生成时依赖于检索标记块（页面），在密集、内容丰富的任务中失败。此外，许多现有的KV缓存稀疏方法依赖于对标记重要性的不准确代理。为了解决这些限制，我们引入了TokenButler，这是一个高粒度、查询感知的预测器，它学会了识别这些关键标记。通过训练一个轻量级预测器，其参数开销不到1.2%，TokenButler根据标记的上下文预测重要性进行优先排序。这提高了困惑度和下游准确性，相对于估计标记重要性的最新方法提高了超过8%。我们在一个新颖的合成小上下文共指检索任务上评估了TokenButler，展示了接近或达到神谕准确度的性能。

2025-03-11

现有的长文本生成方法主要集中在从短输入生成长文本上，忽略了长输入和长输出任务这类任务有许多实际应用，但缺乏可用的基准此外，随着输入长度的增加，现有方法不可避免地会遇到“中间丢失”现象

现有的长文本生成方法主要集中在从短输入生成长文本上，忽略了长输入和长输出任务。这类任务有许多实际应用，但缺乏可用的基准。此外，随着输入长度的增加，现有方法不可避免地会遇到“中间丢失”现象。在本文中，我们首先介绍了一个长输入和长输出基准（LONGINOUTBENCH），包括一个合成数据集和一个全面的评估框架，解决了缺失基准的挑战。然后我们开发了检索增强型长文本写手（RALWRITER），它检索并重述了重要但被忽视的内容，通过构建明确的提示来缓解“中间丢失”问题。最后我们使用提出的LONGINOUTBENCH来评估我们的RALWRITER与可比基线，结果证明了我们方法的有效性。我们的代码已在 https://github.com/OnlyAR/RAL-Writer 发布。

2025-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Qwen2.5-Omni 论文Word格式

不要再过度思考了：一项关于 对大型语言模型的有效推理

《从塔楼到尖顶：一次语音魔法的奇幻旅程》

TokenButler- Token Importance is Predictable.docx

现有的长文本生成方法主要集中在从短输入生成长文本上，忽略了长输入和长输出任务 这类任务有许多实际应用，但缺乏可用的基准 此外，随着输入长度的增加，现有方法不可避免地会遇到“中间丢失”现象

论文译文：LLM Maybe LongLM: SelfExtend LLM Context Window Without Tun

巨型语言模型的 8 位量化：LLM.int8() 中文版论文

LLM+Mamba具有选择性状态空间的线性时间序列建模

Meta的Pearl强化学习库入门（中文版）.pdf

空空如也

不要再过度思考了：一项关于对大型语言模型的有效推理

现有的长文本生成方法主要集中在从短输入生成长文本上，忽略了长输入和长输出任务这类任务有许多实际应用，但缺乏可用的基准此外，随着输入长度的增加，现有方法不可避免地会遇到“中间丢失”现象