AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.09.01-2024.09.05-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44362044/article/details/142417673

文章目录～

1.Attention Heads of Large Language Models: A Survey
2.LLM-CI: Assessing Contextual Integrity Norms in Language Models
3.Planning In Natural Language Improves LLM Search For Code Generation
4.RAG based Question-Answering for Contextual Response Prediction System
5.Attend First, Consolidate Later: On the Importance of Attention in Different LLM Layers
6.CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks
7.N-gram Prediction and Word Difference Representations for Language Modeling
8.xLAM: A Family of Large Action Models to Empower AI Agent Systems
9.MARAGS: A Multi-Adapter System for Multi-Task Retrieval Augmented Generation Question Answering
10.MaterialBENCH: Evaluating College-Level Materials Science Problem-Solving Abilities of Large Language Models
11.Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models?
12.Hallucination Detection in LLMs: Fast and Memory-Efficient Finetuned Models
13.Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges
14.Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey
15.Efficient LLM Context Distillation
16.AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction
17.In Defense of RAG in the Era of Long-Context Language Models
18.Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference
19.Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction

1.Attention Heads of Large Language Models: A Survey

标题:大型语言模型的注意头：调查

author:Zifan Zheng, Yezhaohui Wang, Yuxin Huang, Shichao Song, Bo Tang, Feiyu Xiong, Zhiyu Li

publish:20 pages, 11 figures, 4 tables

date Time:2024-09-05

paper pdf:http://arxiv.org/pdf/2409.03752v1

摘要：
自 ChatGPT 问世以来，大型语言模型（LLM）在各种任务中表现出色，但在很大程度上仍是黑盒系统。因此，它们的开发在很大程度上依赖于数据驱动方法，限制了通过改变内部架构和推理途径来提高性能。因此，许多研究人员开始探索 LLMs 的潜在内部机制，旨在找出其推理瓶颈的本质，而大多数研究都集中在注意力方面。我们的调查旨在通过集中研究注意头的可解释性和内在机制来揭示 LLMs 的内部推理过程。我们首先将人类的思维过程提炼为一个四阶段框架：知识回顾、上下文识别、潜在推理和表达准备。利用这一框架，我们系统地回顾了现有研究，对特定注意头的功能进行了识别和分类。此外，我们还总结了用于发现这些特殊注意头的实验方法，并将其分为两类：无建模方法和需建模方法。此外，我们还概述了相关的评估方法和基准。最后，我们讨论了当前研究的局限性，并提出了几个潜在的未来方向。我们的参考文献列表开源于 \url{https://github.com/IAAR-Shanghai/Awesome-Attention-Heads}。

2.LLM-CI: Assessing Contextual Integrity Norms in Language Models

标题:LLM-CI：评估语言模型中的语境完整性规范

author:Yan Shvartzshnaider, Vasisht Duddu, John Lacalamita

publish:20 pages, 8 Figures, 4 Tables

date Time:2024-09-05

paper pdf:http://arxiv.org/pdf/2409.03735v1

摘要：
大型语言模型（LLM）在记忆从互联网上获取的部分训练数据时，也可能无意中编码了社会偏好和规范。当这些模型被集成到社会技术系统中时，它们所编码的规范与社会期望保持一致至关重要。这些规范可能因模型、超参数、优化技术和数据集而异。由于提示的敏感性，这一点尤其具有挑战性–提示的微小变化就会产生不同的反应，从而使现有的评估方法变得不可靠。我们需要一个涵盖各种模型、优化和数据集的综合框架，以及一种可靠的方法来评估编码规范。我们提出了 LLM-CI，这是第一个开源框架，用于评估 LLM 中编码的隐私规范。LLM-CI 采用基于上下文完整性的因子小节方法来评估不同上下文和 LLM 中的编码规范。我们提出了多提示评估方法，只评估在多个变体中产生一致反应的提示中的规范，从而解决提示敏感性问题。利用 LLM-CI 和我们提出的方法，我们使用先前工作中的物联网和 COPPA 小节数据集全面评估了 LLM，检查了模型属性（如超参数、容量）和优化策略（如对齐、量化）的影响。

3.Planning In Natural Language Improves LLM Search For Code Generation

标题:自然语言规划改进了代码生成的 LLM 搜索

author:Evan Wang, Federico Cassano, Catherine Wu, Yunfeng Bai, Will Song, Vaskar Nath, Ziwen Han, Sean Hendryx, Summer Yue, Hugh Zhang

date Time:2024-09-05

paper pdf:http://arxiv.org/pdf/2409.03733v1

摘要：
尽管扩展训练计算已使大型语言模型（LLMs）取得了显著的进步，但扩展推理计算却尚未产生类似的收益。我们假设，缺少的一个核心要素是 LLM 输出缺乏多样性，导致模型重复采样高度相似但不正确的世代，从而导致搜索效率低下。我们通过实证证明，通过搜索候选计划来解决自然语言中的问题，可以缓解这种缺乏多样性的问题。基于这一见解，我们提出了 PLANSEARCH，这是一种新颖的搜索算法，在 HumanEval+、MBPP+ 和 LiveCodeBench（竞争性编码的无污染基准）中都显示出强劲的效果。PLANSEARCH 会生成一系列有关问题的不同观察结果，然后利用这些观察结果构建解决问题的计划。通过用自然语言搜索计划而不是直接搜索代码解决方案，PLANSEARCH 能探索出比基准搜索方法更多样化的潜在解决方案。在 Claude 3.5 的基础上使用 PLANSEARCH，Sonnet 在 LiveCodeBench 上取得了 77.0% 的最高通过率（pass@200），超过了不使用搜索时的最佳成绩（pass@1 = 41.4%）和使用标准重复采样时的成绩（pass@200 = 60.6%）。最后，我们表明，在分析的所有模型、搜索算法和基准中，我们都能准确预测搜索带来的性能提升，并将其作为生成想法多样性的直接函数。

4.RAG based Question-Answering for Contextual Response Prediction System

标题:基于 RAG 的情境响应预测系统问题解答

author:Sriram Veturi, Saurabh Vaichal, Nafis Irtiza Tripto, Reshma Lal Jagadheesh, Nian Yan

publish:Accepted at the 1st Workshop on GenAI and RAG Systems for Enterprise,
CIKM’24. 6 pages

date Time:2024-09-05

paper pdf:http://arxiv.org/pdf/2409.03708v1

摘要：
大型语言模型（LLM）已在各种自然语言处理（NLP）任务中显示出多功能性，包括其作为有效问题解答系统的潜力。然而，要在行业环境中针对特定客户的询问提供精确的相关信息，大型语言模型需要访问全面的知识库，以避免产生幻觉。检索增强生成（RAG）是应对这一挑战的一项有前途的技术。然而，使用 RAG 为现实世界的应用开发一个准确的问题解答框架需要面对几个挑战：1) 数据可用性问题；2) 评估生成内容的质量；3) 人工评估成本高昂。在本文中，我们介绍了一个端到端框架，该框架采用了具有 RAG 功能的 LLM，适用于行业用例。给定一个客户查询，提议的系统会检索相关知识文档，并利用这些文档和以前的聊天历史记录为一家大型零售公司联络中心的客服人员生成回复建议。通过全面的自动和人工评估，我们发现该解决方案在准确性和相关性方面优于当前基于 BERT 的算法。我们的研究结果表明，基于 RAG 的 LLM 可以减轻人工客服代表的工作量，从而为他们提供出色的支持。

5.Attend First, Consolidate Later: On the Importance of Attention in Different LLM Layers

标题:先注意，后巩固：论不同 LLM 层中注意力的重要性

author:Amit Ben Artzy, Roy Schwartz

date Time:2024-09-05

paper pdf:http://arxiv.org/pdf/2409.03621v1

摘要：
在基于解码器的 LLM 中，给定层的表示有两个目的：在计算当前标记时作为下一层的输入；以及作为未来标记的注意机制的输入。在这项工作中，我们将证明后一种作用的重要性可能被高估了。为了证明这一点，我们首先操纵了之前标记的表征，例如，用随机向量替换某些层 k 的隐藏状态。我们对四个 LLM 和四个任务进行的实验表明，这种操作通常会导致性能下降很小，甚至可以忽略不计。重要的是，如果操作发生在模型的顶层–即最后 30-50% 的层–就会出现这种情况。相比之下，在较早的层中进行同样的操作可能会导致偶然水平的性能。我们继续将某些代词的隐藏状态与另一个提示中其他代词的隐藏状态进行切换，例如，在 "意大利的首都是什么？"中将 "意大利 "替换为 “法国”。我们发现，当在模型的前 1/3 部分应用这一转换时，模型会忽略它（回答 “罗马”）。然而，如果我们在之前进行切换，模型就会服从切换（回答 “巴黎”）。我们的研究结果表明，基于转换器的 LLM 有两个阶段：第一阶段是从之前的标记中收集输入信息，而第二阶段则主要在内部处理这些信息。

6.CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks

标题:CogniDual 框架：在改进认知任务的双系统理论框架内自我训练大型语言模型

author:Yongxin Deng, Xihe Qiu, Xiaoyu Tan, Chao Qu, Jing Pan, Yuan Cheng, Yinghui Xu, Wei Chu

date Time:2024-09-05

paper pdf:http://arxiv.org/pdf/2409.03381v1

摘要：
认知心理学研究感知、注意力、记忆、语言、问题解决、决策和推理。卡尼曼的双系统理论阐明了人类的决策过程，区分了快速、直观的系统 1 和深思熟虑、理性的系统 2。最近的研究进展已将大型语言模型（LLM）定位为在各种认知任务中接近人类水平的强大工具。然而，大型语言模型中是否存在类似于人类认知的双系统框架仍有待探索。本研究引入了 “LLMs认知双系统框架”（CFLLMs），旨在评估LLMs能否通过自我训练，从刻意推导演化为直觉反应，从而模仿人类获取和掌握新信息的过程。我们的研究结果揭示了 LLMs 生成反应背后的认知机制，加深了我们对认知心理学中 LLMs 能力的理解。实际上，自我训练的模型可以对某些查询做出更快的反应，从而减少推理过程中的计算需求。

7.N-gram Prediction and Word Difference Representations for Language Modeling

标题:用于语言建模的 N-gram 预测和词差表示法

author:DongNyeong Heo, Daniela Noemi Rim, Heeyoul Choi

date Time:2024-09-05

paper pdf:http://arxiv.org/pdf/2409.03295v1

摘要：
因果语言建模（CLM）是近年来大语言模型（LLM）取得巨大成功的基础框架。尽管取得了成功，但下一个词预测的训练方法存在潜在风险，可能导致模型过度关注句子中的局部依赖关系。虽然之前的研究已经引入了同时预测未来 N 个单词的方法，但它们主要应用于遮蔽语言建模（MLM）和神经机器翻译（NMT）等任务。在本研究中，我们为 CLM 任务引入了一个简单的 N-gram 预测框架。此外，在 N-gram 预测框架的基础上，我们还引入了词差表示（WDR）作为模型训练过程中的替代和上下文化目标表示。为了进一步提高下一个词的预测质量，我们提出了一种集合方法，该方法结合了未来 N 个词的预测结果。在包含 CLM 和 NMT 任务的多个基准数据集上进行的经验评估表明，与传统的 CLM 相比，我们提出的方法具有显著优势。

8.xLAM: A Family of Large Action Models to Empower AI Agent Systems

标题:xLAM：增强人工智能代理系统能力的大型行动模型系列

author:Jianguo Zhang, Tian Lan, Ming Zhu, Zuxin Liu, Thai Hoang, Shirley Kokane, Weiran Yao, Juntao Tan, Akshara Prabhakar, Haolin Chen, Zhiwei Liu, Yihao Feng, Tulika Awalgaonkar, Rithesh Murthy, Eric Hu, Zeyuan Chen, Ran Xu, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Silvio Savarese, Caiming Xiong

publish:Technical report for the Salesforce xLAM model series

date Time:2024-09-05

paper pdf:http://arxiv.org/pdf/2409.03215v1

摘要：
由大型语言模型（LLMs）驱动的自主代理吸引了大量研究兴趣。然而，开源社区在为代理任务开发专用模型方面面临着许多挑战，原因是高质量代理数据集的稀缺以及该领域标准协议的缺失。我们介绍并公开发布了 xLAM，这是一系列专为人工智能代理任务设计的大型动作模型。xLAM 系列包括五个模型，具有密集架构和专家混合架构，参数范围从 1B 到 8x22B，采用可扩展的灵活管道进行训练，可统一、增强和合成不同的数据集，以提高人工智能代理在不同环境中的泛化能力和性能。我们的实验结果表明，xLAM 在多个代理能力基准测试中始终保持优异的性能，尤其是在伯克利函数调用排行榜（Berkeley Function-Calling Leaderboard）上稳居第一，在工具使用方面优于 GPT-4、Claude-3 和许多其他模型。通过发布 xLAM 系列，我们的目标是提高自主人工智能代理的开源 LLM 性能，从而加快代理任务高性能模型的进展和普及。模型可从以下网址获取：https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4

9.MARAGS: A Multi-Adapter System for Multi-Task Retrieval Augmented Generation Question Answering

标题:MARAGS：多任务检索增强生成问题解答的多适配器系统

author:Mitchell DeHaven

publish:Accepted to CRAG KDD Cup 24 Workshop

date Time:2024-09-05

paper pdf:http://arxiv.org/pdf/2409.03171v1

摘要：
在本文中，我们为 KDD CUP 2024 的 Meta’s Comprehensive RAG (CRAG) 竞赛介绍了一种多适配器检索增强生成系统 (MARAGS)。CRAG 是一个问题解答数据集，包含 3 个不同的子任务，旨在解决现实问题并回答 RAG 相关任务，其中包含一系列不同的问题主题、问题类型、时间动态答案以及具有不同流行度实体的问题。我们的系统遵循基于网络的 RAG 的标准设置，即使用处理过的网页为 LLM 生成生成物提供上下文，同时还查询 API 端点以获取更多信息。MARAGS 还利用多个不同的适配器来解决这些任务的各种要求，并采用标准的交叉编码器模型对与回答问题相关的候选段落进行排序。我们的系统在任务 1 中获得了第二名，在任务 2 中获得了第三名。

10.MaterialBENCH: Evaluating College-Level Materials Science Problem-Solving Abilities of Large Language Models

标题:MaterialBENCH：评估大学材料科学大语言模型解决问题的能力

author:Michiko Yoshitake, Yuta Suzuki, Ryo Igarashi, Yoshitaka Ushiku, Keisuke Nagato

date Time:2024-09-05

paper pdf:http://arxiv.org/pdf/2409.03161v1

摘要：
为材料科学领域的大型语言模型（LLM）构建了一个大学级别的基准数据集–MaterialBENCH。该数据集由基于大学教科书的问题-答案对组成。问题有两种类型：一种是自由回答类型，另一种是多项选择类型。多选题的构造是在一个正确答案的基础上增加三个错误答案作为选项，这样，语文教师就可以从四个答案中选择一个作为回答。除答案格式外，自由回答型和多项选择型的大部分问题都是重叠的。我们还使用 MaterialBENCH 在 LLM 上进行了实验，包括 ChatGPT-3.5、ChatGPT-4、Bard（实验时）以及带有 OpenAI API 的 GPT-3.5 和 GPT-4。本文分析并讨论了 MaterialBENCH 所测量的 LLM 性能的异同。此外，还研究了相同模型中自由回答类型和多项选择类型的性能差异，以及使用系统批量处理对多项选择问题的影响。我们预计，MaterialBENCH 将鼓励 LLMs 进一步发展推理能力，以解决更复杂的问题，并最终为材料研究和发现做出贡献。

11.Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models?

标题:集合与关注：基于 LLM 的嵌入模型的有效设计是什么？

author:Yixuan Tang, Yi Yang

publish:https://github.com/yixuantt/PoolingAndAttn

date Time:2024-09-04

paper pdf:http://arxiv.org/pdf/2409.02727v2

摘要：
大语言模型（LLM）在生成任务中取得的重大进展促使越来越多的人开始探索基于 LLM 的嵌入模型。虽然这些模型采用了不同的池化和关注策略，在公共嵌入基准上取得了最先进的性能，但对于什么是基于 LLM 的嵌入模型的有效设计，仍然存在疑问。然而，这些模型通常在不同的数据集上进行训练，使用不同的 LLM 基本模型或训练设置。此外，对公共嵌入基准的评估往往无法报告统计意义，因此很难确定哪些设计真正有助于提高最终性能。这使得为基于 LLM 的嵌入模型寻找最佳训练方法的从业人员的工作变得更加复杂。在本研究中，我们进行了一次大规模实验，使用相同的训练数据和基础模型训练了一系列基于 LLM 的嵌入模型，但它们的池化和关注策略各不相同。结果表明，没有放之四海而皆准的解决方案：虽然双向注意力和额外的可训练池层在文本相似性和信息检索任务中表现出色，但在聚类和分类任务中，它们并没有明显超越 EOS-最后标记池和默认因果注意力等更简单的设计。此外，我们还提出了一种新的池化策略–多层可训练池化（Multi-Layers Trainable Pooling），它使用交叉注意力网络转换所有隐藏层而不仅仅是最后一层的输出。事实证明，与现有的汇集方法相比，这种方法在文本相似性和检索任务中具有统计学上的优势。总之，本文揭示了基于 LLM 的嵌入模型的有效训练策略。

12.Hallucination Detection in LLMs: Fast and Memory-Efficient Finetuned Models

标题:LLM 中的幻觉检测：快速、内存效率高的微调模型

author:Gabriel Y. Arteaga, Thomas B. Schön, Nicolas Pielawski

publish:5 pages, 3 figures

date Time:2024-09-04

paper pdf:http://arxiv.org/pdf/2409.02976v1

摘要：
在自动驾驶汽车、医疗或保险等高风险环境中实施人工智能时，不确定性估计是一个必要的组成部分。近年来，大型语言模型（LLMs）大受欢迎，但它们会产生幻觉，在高风险环境中可能造成严重伤害。尽管 LLMs 取得了成功，但其训练和运行成本却很高：它们需要大量的计算和内存，因此无法在实践中使用集合方法。在这项工作中，我们提出了一种新方法，可以快速、内存友好地训练 LLM 集合。我们的研究表明，由此产生的集合能够检测幻觉，并且在实践中是一种可行的方法，因为只需要一个 GPU 就能完成训练和推理。

13.Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges

标题:大型语言模型与认知科学：全面回顾相似性、差异性和挑战

author:Qian Niu, Junyu Liu, Ziqian Bi, Pohsun Feng, Benji Peng, Keyu Chen

publish:10 pages, 1 figure

date Time:2024-09-04

paper pdf:http://arxiv.org/pdf/2409.02387v2

摘要：
这篇综合评论探讨了大型语言模型（LLMs）与认知科学的交叉点，研究了 LLMs 与人类认知过程之间的异同。我们分析了评估 LLM 认知能力的方法，并讨论了它们作为认知模型的潜力。综述涵盖了 LLMs 在各个认知领域的应用，重点介绍了认知科学研究中获得的启示。我们评估了 LLMs 的认知偏差和局限性，并提出了改进 LLMs 性能的方法。我们研究了 LLM 与认知架构的整合，揭示了增强人工智能（AI）能力的前景广阔的途径。此外，还确定了主要挑战和未来研究方向，强调需要不断改进 LLM，使其更好地与人类认知保持一致。这篇综述提供了一个平衡的视角，探讨了 LLM 在促进我们对人工智能和人类智能的理解方面的现状和未来潜力。

14.Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey

标题:用于异常和分布外检测的大型语言模型：调查

author:Ruiyao Xu, Kaize Ding

publish:under review

date Time:2024-09-03

paper pdf:http://arxiv.org/pdf/2409.01980v1

摘要：
检测异常或分布外（OOD）样本对于保持机器学习系统的可靠性和可信度至关重要。最近，大语言模型（LLMs）凭借其先进的理解和生成能力，不仅在自然语言处理领域，而且在更广泛的应用领域都显示出了其有效性。将 LLMs 整合到异常和 OOD 检测中，标志着该领域传统模式的重大转变。本研究重点关注 LLMs 背景下的异常和 OOD 检测问题。我们提出了一种新的分类法，根据 LLM 所扮演的角色将现有方法分为三类。根据我们提出的分类法，我们进一步讨论了每个类别下的相关工作，最后讨论了该领域未来研究的潜在挑战和方向。我们还提供了相关论文的最新阅读清单。

15.Efficient LLM Context Distillation

标题:高效 LLM 上下文蒸馏

author:Rajesh Upadhayayaya, Zachary Smith, Chritopher Kottmyer, Manish Raj Osti

date Time:2024-09-03

paper pdf:http://arxiv.org/pdf/2409.01930v1

摘要：
本文特别研究了语境提炼法，这种方法通过将特定任务的示例内部化来扩展这些示例的效用，从而增加模型推理所能使用的示例集。

16.AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction

标题:AgentRE：一种基于代理的框架，用于在关系提取中浏览复杂的信息景观

author:Yuchen Shi, Guochao Jiang, Tian Qiu, Deqing Yang

publish:Accepted by CIKM 2024

date Time:2024-09-03

paper pdf:http://arxiv.org/pdf/2409.01854v1

摘要：
复杂场景中的关系提取（RE）面临着关系类型多样、单句中实体间关系模糊等挑战，导致纯粹的 "文本进、文本出 "语言模型（LMs）性能不佳。为了应对这些挑战，本文提出了一种基于代理的 RE 框架，即 AgentRE，它充分利用了大型语言模型（LLM）的潜力，包括记忆、检索和反射，以实现复杂场景中的 RE。具体来说，AgentRE 内置三大模块，作为帮助代理获取和处理各种有用信息的工具，从而提高 RE 性能。我们在中英文两个数据集上进行的大量实验结果表明，AgentRE 性能优越，尤其是在资源匮乏的场景中。此外，AgentRE 生成的轨迹还可用于构建高质量的训练数据集，其中包含不同的推理方法，可用于微调较小的模型。代码见 https://github.com/Lightblues/AgentRE。

17.In Defense of RAG in the Era of Long-Context Language Models

标题:在长语境语言模型时代为 RAG 辩护

author:Tan Yu, Anbang Xu, Rama Akkiraju

date Time:2024-09-03

paper pdf:http://arxiv.org/pdf/2409.01666v1

摘要：
为了克服早期 LLMs 中有限的上下文限制，检索增强生成（RAG）在过去一直是基于上下文生成答案的可靠解决方案。最近，长语境 LLMs 的出现使得模型可以包含更长的文本序列，从而降低了 RAG 的吸引力。最近的研究表明，在长语境应用中，长语境 LLM 明显优于 RAG。与现有的长上下文 LLM 优于 RAG 的研究不同，我们认为 LLM 中的超长上下文会降低对相关信息的关注，并导致答案质量的潜在下降。本文重新审视了长语境答案生成中的 RAG。我们提出了一种顺序保留检索增强生成（OP-RAG）机制，该机制显著提高了 RAG 在长上下文问答应用中的性能。使用 OP-RAG，随着检索块数量的增加，答案质量最初会上升，然后下降，形成一条倒 U 型曲线。与将整个上下文作为输入的长上下文 LLM 相比，OP-RAG 可以用更少的词块获得更高的答案质量。在公共基准上进行的大量实验证明了我们的 OP-RAG 的优越性。

18.Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference

标题:利用上下文感知的句子编码进行及时压缩，实现快速、改进的 LLM 推理

author:Barys Liskavets, Maxim Ushakov, Shuvendu Roy, Mark Klibanov, Ali Etemad, Shane Luke

date Time:2024-09-02

paper pdf:http://arxiv.org/pdf/2409.01227v2

摘要：
大型语言模型（LLM）引发了一股新的研究热潮，研究重点是压缩上下文长度以降低计算成本，同时确保保留对 LLM 回答给定问题有用的信息。基于标记的移除方法是这一方向上最突出的方法之一，但由于中间标记的移除，特别是在高压缩比的情况下，有可能丢失上下文的语义，同时在计算效率方面也面临挑战。在这项工作中，我们提出了上下文感知提示语压缩（CPC）技术，这是一种句子级提示语压缩技术，其主要创新点在于一种新颖的上下文感知句子编码器，可为给定问题的每个句子提供相关性评分。为了训练这种编码器，我们生成了一个新的数据集，其中包括问题、正句和反句对，正句是与问题相关的句子，反句是无关的上下文句子。我们在对比设置中训练编码器，以学习上下文感知句子表征。在基准数据集上，我们的方法大大优于之前的及时压缩方法，与最好的标记级压缩方法相比，我们的推理速度提高了 10.93 倍。我们还发现，在大多数基准中，较短的长度限制有更好的改进，这表明我们提出的解决方案在压缩较短上下文中的相关信息方面非常有效。最后，我们发布了代码和数据集，以便快速复制和进一步开发：https://github.com/Workday/cpc。

19.Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction

标题:平衡性能与效率：基于图像文本交互的多模态大语言模型剪枝方法

author:Gaotong Yu, Yi Chen, Jian Xu

date Time:2024-09-02

paper pdf:http://arxiv.org/pdf/2409.01162v1

摘要：
最近，多模态大语言模型（MM-LLMs）在许多多模态任务中取得了巨大成功，但其高昂的计算成本限制了其进一步推广和应用。在 MM-LLMs 框架中，主要的计算消耗步骤是在 LLM 层处理文本和视觉标记。LLM 输入标记的长度会直接影响整体训练和推理效率。针对这一问题，我们进一步研究了 MM-LLM 的视觉标记。我们发现，在视觉编码器中，视觉标记和 CLS 标记之间的相似度呈长尾分布。换句话说，只有少数视觉标记与 CLS 标记高度相似。因此，我们设计了一种动态剪枝算法来解决这一问题。首先，对于不同的输入样本，我们会搜索其视觉 CLS 标记相似度曲线的拐点，并以此作为相应的分割点来修剪视觉标记。这一过程主要是减少视觉编码器的输出，以加速模型的建立。然后，在 LLM 层，对串联的视觉文本标记进行第二次修剪。在这一过程中，由于视觉和文本特征之间的相互作用，文本相关性低的视觉和文本标记会被进一步过滤，从而实现效率和性能之间的平衡。在多个数据集上的结果表明，我们提出的方法平均使用了原始标记数量的 22%，就能达到与原始方法相媲美的性能。我们的源代码将在通过验收后公开发布。