【LLM】25.1.14 arxiv更新59篇-优快云博客

本文链接：https://blog.youkuaiyun.com/hinmer/article/details/145158153

【LLM】25.1.14 arxiv更新59篇

—第1篇----

=====

探索多语言大型语言模型在真实世界噪声数据下的鲁棒性

🔍 关键词: 多语言, 大型语言模型, 鲁棒性, 自然语言处理, 拼写错误

链接1

摘要: 大规模语言模型（LLMs）是在可能包含人类拼写错误的网络数据上训练的。但它们是否对类似的现实世界噪声具有鲁棒性？在本文中，我们研究了现实世界拼写错误对9种语言模型（参数范围从0.2B到13B）在3个不同的NLP任务（即自然语言推理（NLI）、命名实体识别（NER）和意图分类（IC））上的性能影响。我们在6种不同的语言上进行实验，并利用维基百科编辑历史为它们构建了真实世界噪声的词典。我们展示了在所有数据集和语言上的干净和噪声测试数据之间，所研究模型的性能差距平均在2.3到4.3绝对百分点之间。此外，mT5模型通常比BLOOM、Falcon和类似BERT的模型表现出更高的鲁棒性。具体而言，mT5（13B）在整体上，在3个任务和6种语言中有4种的平均情况下，是最鲁棒的。
总结: 该研究评估了多语言大型语言模型在实际拼写错误情况下的鲁棒性，发现mT5模型表现最为稳健。
###【arXiv编号】2501.08322v1
###【git】
###【期刊】
###【领域】计算机科学（自然语言处理）

[推荐指数：4]

本研究系统评估了多语言大型语言模型在真实拼写错误环境下的表现，发现mT5模型具有较强的鲁棒性，对自然语言处理领域具有重要的参考价值。

—第2篇----

=====

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

🔍 关键词: 自动解释, 特征描述, 大型语言模型, 因果效应, 输出中心方法

链接1

摘要: 自动解释流程为大型语言模型（LLMs）中的特征（如植物或句子的第一个单词）生成自然语言描述。这些描述是通过激活特征的输入（可能是模型表示空间中的一个维度或一个方向）得出的。然而，识别激活输入的成本高昂，并且特征在模型行为中的机械作用既取决于输入如何激活特征，又取决于特征激活如何影响输出。通过引导评估，我们揭示当前流程提供的描述未能捕捉特征对输出的因果影响。为此，我们提出了高效的、以输出为中心的自动生成特征描述的方法。这些方法利用特征刺激后权重较高的tokens，或直接将词汇表“解嵌入”头应用于特征后的最高权重tokens。我们的输出中心描述比输入中心描述更能捕捉特征对模型输出的因果影响，但将两者结合可在输入和输出评估中实现最佳性能。最后，我们展示了输出中心描述可以用于发现先前被认为是“死的”特征的激活输入。
总结: 本研究提出了一种以输出为中心的特征描述生成方法，提升了大型语言模型的自动解释能力，并发现了之前被认为无法激活的特征输入。
###【arXiv编号】2501.08319v1
###【git】
###【期刊】
###【领域】计算机科学，计算语言学

[推荐指数：4]

该研究在大型语言模型的自动解释领域提出了创新且高效的方法，通过结合输出中心和输入中心的特征描述生成技术，显著提升了描述对模型输出的因果影响捕捉能力，具有较高的实用性和学术价值。

—第3篇----

=====

PokerBench: Training Large Language Models to become Professional Poker Players

🔍 关键词: 大规模语言模型, 扑克, 基准测试

http://arxiv.org/pdf/2501.08328v1

摘要: 我们介绍了PokerBench——一个用于评估大规模语言模型（LLMs）扑克游戏能力的基准。随着LLMs在传统的自然语言处理任务中表现出色，将其应用于像扑克这样复杂的战略游戏提出了新的挑战。扑克作为一个不完全信息的游戏，要求具备多种技能，如数学、推理、计划、策略以及对博弈论和人类心理的深刻理解。这使得扑克成为大规模语言模型的理想下一个前沿。PokerBench由与训练有素的扑克玩家合作开发的11,000个最重要的情景组成，分为前注和后注游戏。我们评估了包括GPT-4、ChatGPT 3.5以及各种Llama和Gemma系列模型在内的知名模型，发现所有最先进的LLMs在玩最优扑克方面表现不佳。然而，经过微调后，这些模型显示出显著的改进。我们通过让得分不同的模型相互竞争来验证PokerBench，证明在PokerBench上得分更高的模型在实际扑克游戏中的胜率更高。通过我们微调后的模型和GPT-4之间的游戏，还确定了简单的监督微调在学习最优游戏策略方面的局限性，表明需要更先进的方法来有效训练语言模型在游戏中表现出色。因此，PokerBench为快速和可靠地评估LLMs的扑克游戏能力以及研究LLMs在复杂游戏场景中进展的全面基准提供了一个独特的基准。数据集和代码将发布在：https://github.com/pokerllm/pokerbench。
总结: PokerBench为评估和提升大规模语言模型在扑克等复杂战略游戏中的能力提供了一个独特且全面的基准测试。
###【arXiv编号】2501.08328v1
###【git】https://github.com/pokerllm/pokerbench
###【期刊】
###【领域】计算机科学-自然语言处理, 人工智能, 博弈论

[推荐指数：4]

该论文通过引入PokerBench基准，有效评估了大型语言模型在扑克这类复杂战略游戏中的表现，并展示了微调对提升模型能力的显著效果，对LLMs在战略游戏领域的应用具有重要参考价值。

—第4篇----

=====

ADAM-1: AI and Bioinformatics for Alzheimer’s Detection and Microbiome-Clinical Data Integrations

🔍 关键词: 人工智能, 生物信息学, 阿尔茨海默病检测, 微生物组, 临床数据整合

PDF链接

摘要: 阿尔茨海默病分析模型生成1（ADAM）是一个多智能体大型语言模型（LLM）框架，旨在整合和分析多模态数据，包括微生物组谱、临床数据集和外部知识库，以增强对阿尔茨海默病（AD）的理解和检测。通过利用基于检索的生成（RAG）技术以及其多智能体架构，ADAM-1综合了来自不同数据源的见解，并使用文献驱动的证据来背景化研究发现。与XGBoost的对比评估显示，ADAM-1在平均F1分数相似的情况下，显著降低了方差，突显了其在小规模实验室数据集中的稳健性和一致性。尽管目前主要针对二元分类任务，未来的迭代计划纳入额外的数据模态，如神经影像和生物标志物，以扩大其在阿尔茨海默病研究和诊断中的可扩展性和适用性。
总结: ADAM-1通过多模态数据整合和多智能体架构，提供了一种稳健且一致的阿尔茨海默病检测AI解决方案。

###【arXiv编号】2501.08324v1
###【git】暂无
###【期刊】暂无
###【领域】人工智能, 生物信息学, 医学诊断

[推荐指数：4]

ADAM-1在整合多模态数据以检测阿尔茨海默病方面展示了创新性和实用性，通过多智能体LLM框架显著提升了模型的稳健性和一致性，具有较高的学术和应用价值。

—第5篇----

=====

HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

🔍 关键词: 大型语言模型, 幻觉, 基准测试, 生成模型

链接1

摘要: 尽管生成型大型语言模型（LLM）在生成高质量且流畅的文本方面表现出色，但它们也会产生幻觉，即与既定世界知识或提供的输入上下文不一致的陈述。然而，衡量幻觉具有挑战性，因为让人类实时验证模型生成既昂贵又耗时。在本研究中，我们发布了HALoGEN，这是一个全面的幻觉基准，包括：(1) 为生成模型提供的10,923个提示，涵盖编程、科学归因和摘要等九个领域；(2) 每个用例的自动高精度验证器，将LLM生成的内容分解为原子单元，并针对每个单元与高质量知识源进行验证。我们使用该框架评估了来自14种语言模型的大约150,000个生成结果，发现即使是性能最佳的模型也充满幻觉（根据领域不同，生成的原子事实中最高可达86%）。我们进一步基于幻觉可能源自训练数据中的不正确回忆（A类错误）、训练数据中的错误知识（B类错误）或捏造（C类错误），定义了LLM幻觉的新型错误分类。我们希望我们的框架为生成模型幻觉产生原因的原则性研究提供基础，并推动可信赖大型语言模型的发展。
总结: 本文推出了HALoGEN基准，系统评估大型语言模型的幻觉现象并提出新型错误分类，以促进可信赖模型的发展。
###【arXiv:2501.08292v1】
###【git】
###【期刊】
###【领域】
计算机科学—自然语言处理, 人工智能—生成模型

[推荐指数：4]

HALoGEN提供了全面的幻觉评估基准和自动验证方法，有助于深入理解和改进大型语言模型的可靠性，具有较高的创新性和实用性。

—第6篇----

=====

AfriHate: 多语言非洲语言仇恨言论与辱骂语言数据集

🔍 关键词: 仇恨言论, 辱骂语言, 多语言数据集, 非洲语言, 内容审核

PDF链接

摘要: 仇恨言论和辱骂语言是全球性现象，需要社会文化背景知识来理解、识别和调节。然而，在全球南方的许多地区，由于依赖上下文无关的关键词检测，存在（1）缺乏调节和（2）审查的情况。此外，高调人物经常成为调节过程的中心，而针对少数群体的大规模有针对性的仇恨言论运动则被忽视。这些限制主要归因于当地语言中缺乏高质量的数据，以及未能在数据收集、注释和调节过程中包含当地社区。为了解决这一问题，我们提出了AfriHate：一个涵盖15种非洲语言的多语言仇恨言论和辱骂语言数据集。AfriHate中的每个实例都由熟悉当地文化的母语者进行注释。我们报告了构建数据集相关的挑战，并展示了使用和不使用大语言模型的各种分类基线结果。数据集、各个注释以及仇恨言论和攻击性语言词汇表可在 GitHub 获取。

总结: AfriHate提供了15种非洲语言的多语言仇恨言论与辱骂语言数据集，旨在提升该地区的内容识别与调节能力。

###【arXiv:2501.08284v1】

###【GitHub: https://github.com/AfriHate/AfriHate】

###【期刊】

###【领域：计算语言学，仇恨言论检测，自然语言处理】

[推荐指数：4]

=====

—第7篇----

=====

探索LLMs在社会人口学条件下转述的鲁棒性

🔍 关键词: 大型语言模型，鲁棒性，社会人口学，转述，自然语言处理

PDF链接

摘要: 大型语言模型（LLMs）在各种自然语言处理任务中表现出色。然而，人们担心它们在不同语言变体领域的可靠性。许多研究提出了针对局部对抗攻击的鲁棒性评估措施，但我们需要在不同语言风格上无偏见的全局鲁棒模型。我们采取更广泛的方法，探索跨社会人口学维度的更广泛的变体范围，以对语言模型的推理能力进行结构化可靠性测试。我们扩展了 SocialIQA 数据集，创建了基于社会人口学风格的多样化转述集。该评估旨在深入理解LLMs在（a）通过设计提示生成人口统计转述的能力和（b）在现实世界复杂语言场景下的推理能力。我们还探索了困惑度、可解释性和转述的 ATOMIC 性能等指标，以对 LLMs 在这些数据集上的细粒度可靠性进行分析。我们发现，特定于人口统计的转述显著影响了语言模型的性能，表明语言变体的细微差别仍然是一个重大挑战。代码和数据集将提供以便于可重复性和未来研究。
总结: 本研究评估了大型语言模型在社会人口学条件下转述任务中的鲁棒性，发现语言变体对模型性能有显著影响。

###【arXiv:2501.08276v1】

###【领域】计算语言学

[推荐指数：4]

该研究深入探讨了大型语言模型在处理社会人口学条件下的语言转述任务中的鲁棒性，具有较高的创新性和实用性，对提升模型的公平性和可靠性具有重要意义。

—第8篇----

=====

文章名称

🔍 关键词: 大型语言模型, 可持续人工智能, 能耗, 检索增强生成, 三难困境

链接1

摘要: 大型语言模型（LLMs）已经展现出显著的能力，但它们的广泛部署和更先进的应用引发了关键的可持续性挑战，尤其是在推理能耗方面。我们提出了可持续AI三难困境的概念，强调了AI能力、数字公平和环境可持续性之间的紧张关系。通过对LLM代理和检索增强生成（RAG）的系统案例研究，我们分析了内存模块设计中嵌入的能耗，并引入了新的指标来量化能耗与系统性能之间的权衡。我们的实验结果揭示了当前内存增强框架中的显著能效低下，并证明资源受限环境面临不成比例的效率惩罚。我们的发现挑战了代理设计中现行的以LLM为中心的范式，并为开发更可持续的AI系统提供了实用见解。
总结: 本文通过案例研究揭示了大型语言模型在能耗与性能之间的权衡，提出了实现更可持续AI系统的实用见解。

###【arXiv编号】2501.08262v1
###【git】
###【期刊】
###【领域】
计算机科学 - 社会影响

[推荐指数：4]

本文深入分析了大型语言模型在可持续性方面面临的挑战，提出了新的评估指标，并为未来的可持续AI系统开发提供了宝贵的见解，具有较高的创新性和实用性。

—第9篇----

=====

CriSPO: 多方面批评-建议引导的自动提示优化用于文本生成

🔍 关键词: cs.CL, cs.AI, cs.LG

链接1

摘要: 现有的自动提示工程方法通常针对判别任务设计，其中新的任务提示通过有限的单一指标反馈进行迭代优化，反映单一方面。然而，这些方法对于生成任务来说并不理想，因为生成任务需要超越单一数值指标的更细腻指导来改进提示并优化生成文本的多个方面。为了解决这些挑战，我们提出了一种新颖的多方面批评-建议引导的自动提示优化（CriSPO）方法。CriSPO引入了一个批评-建议模块作为其核心组件。该模块自发地发现方面，并在这些方面上比较生成文本和参考文本，提供具体的提示修改建议。这些明确的批评和可行的建议指导了一个接受性优化模块，以进行更实质性的修改，探索更广泛和更有效的搜索空间。为了进一步通过多指标优化改进CriSPO，我们引入了一种自动后缀调整（AST）扩展，以提升任务提示在多个指标上的性能。我们在4个最先进的大型语言模型（LLM）上，以及4个摘要和5个问答数据集上评估了CriSPO。大量实验证明，摘要的ROUGE评分提高了3-4%，问答的各种指标也有了显著提升。代码可在https://github.com/amazon-science/crispo获取。

总结: CriSPO方法通过多方面的反馈和建议，显著优化了文本生成任务中的自动提示。

###【arXiv编号】
arXiv:2410.02748v3

###【git】
https://github.com/amazon-science/crispo

###【期刊】
暂无

###【领域】
计算机科学

[推荐指数：4]

=====

—第10篇----

=====

文章名称

🔍 关键词: cs.LG

Text-Diffusion Red-Teaming of Large Language Models: Unveiling Harmful Behaviors with Proximity Constraints

摘要: 最近的研究提出了自动化的红队方法，用于测试大型语言模型（LLM）的脆弱性。这些方法通过红队攻击LLM，发现诱发目标LLM产生有害行为的输入。在本文中，我们研究了能够实现针对性安全评估的红队策略。我们提出了一个带有接近性约束的红队优化框架，其中发现的提示必须与给定数据集中的参考提示相似。该数据集作为发现提示的模板，将测试案例的搜索锚定到特定主题、写作风格或有害行为类型。我们展示了已建立的自回归模型架构在此设置中的表现不佳。因此，我们引入了一种受文本扩散模型启发的黑箱红队方法：用于审计和红队的扩散（DART）。DART通过在嵌入空间中扰动参考提示来修改它，直接控制引入的变化量。我们通过将我们的方法与基于模型微调及零样本和少样本提示的既有方法进行比较，系统地评估了我们的方法的有效性。我们的结果表明，DART在发现与参考提示密切相关的有害输入方面显著更有效。
总结: 本文提出了一种新的红队方法DART，通过文本扩散模型更有效地发现大型语言模型中的有害行为。
###【arXiv编号】2501.08246v1
###【git】暂无
###【期刊】暂无
###【领域】计算机科学，语言模型安全

[推荐指数：4]

DART方法在红队测试大型语言模型方面展现了显著的创新性和实用性，能够更有效地发现有害输入，尽管该方法可能需要进一步验证其在更广泛模型中的适用性。

—第11篇----

=====

Engineering LLM Powered Multi-agent Framework for Autonomous CloudOps

🔍 关键词: 云运维, 生成式人工智能, 多代理框架, 自动化, 任务编排

PDF链接

摘要: 云操作（CloudOps）是一个快速发展的领域，专注于云基础设施的自动化管理和优化，对于在日益复杂的云环境中导航的组织来说至关重要。MontyCloud Inc.是CloudOps领域的主要公司之一，利用自主机器人管理云合规、安全和持续运营。为了使平台对客户更具可访问性和有效性，我们利用了生成式人工智能（GenAI）。为现有的MontyCloud系统开发基于GenAI的自主CloudOps解决方案为我们带来了诸多挑战，例如多样化的数据源；多个过程的协调；以及处理复杂的工作流程以自动化日常任务。为此，我们开发了MOYA，这是一种利用GenAI并在必要的人类控制下平衡自主性的多代理框架。该框架整合了各种内部和外部系统，并针对任务编排、安全性和错误缓解等因素进行了优化，同时利用检索增强生成（RAG）技术产生准确、可靠和相关的见解。通过实践者的评估以及使用自动化检查，我们的多代理系统在复杂工作流程中相较于非代理方法展现出更高的准确性、响应性和有效性。
总结: MOYA多代理框架通过集成生成式人工智能和检索增强生成技术，显著提升了云运维自动化管理的准确性和效率。

【arXiv编号】2501.08243v1

【git】

【期刊】

【领域】计算机科学、云运维、人工智能

[推荐指数：4]

该研究创新性地将生成式人工智能应用于云运维自动化，通过多代理框架解决复杂的数据整合和任务编排问题，具有较高的实用性和应用前景。

—第12篇----

=====

HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models

🔍 关键词: 大型语言模型, 长期记忆, 检索增强生成, 神经生物学

PDF链接 GitHub

摘要: 为了在敌对和不断变化的自然环境中生存，哺乳动物大脑进化出存储大量世界知识并不断整合新信息，同时避免灾难性遗忘的能力。尽管取得了令人瞩目的成就，大型语言模型（LLMs），即使采用检索增强生成（RAG），在预训练后仍难以高效和有效地整合大量新经验。在本研究中，我们引入了HippoRAG，这是一种新颖的检索框架，受人类长期记忆海马索引理论的启发，以实现对新经验更深入和更高效的知识整合。HippoRAG 协同地协调了LLMs、知识图谱和个性化PageRank算法，以模仿人类记忆中新皮层和海马体的不同角色。我们将HippoRAG与现有的RAG方法在多跳问答上进行了比较，结果表明我们的方法显著优于最先进的方法，性能提升高达20%。使用HippoRAG的单步检索实现了与迭代检索方法如IRCoT相当甚至更好的性能，同时成本降低10-30倍，速度提高6-13倍，将HippoRAG集成到IRCoT中带来了进一步的显著提升。最后，我们展示了我们的方法能够解决现有方法无法应对的新类型场景。代码和数据可在GitHub获得。
总结: HippoRAG通过受神经生物学启发的创新检索框架，显著提升了大型语言模型在整合新知识和多跳问答任务中的效率和效果。

###【arXiv编号】2405.14831v3
###【git】https://github.com/OSU-NLP-Group/HippoRAG
###【期刊】未公布
###【领域】计算机科学：计算语言学、人工智能

[推荐指数：4]

HippoRAG结合神经生物学理论与先进算法，提供了高效整合新知识的方法，显著提升了大型语言模型的性能，具有较高的创新性和实用价值。

—第13篇----

=====

Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings

🔍 关键词:

链接1

摘要: 大型语言模型（LLMs）在许多自然语言处理（NLP）任务中显示出显著的改进，加速了它们在众多行业中的快速采用。这些模型资源密集，训练和推理过程中需要大量计算资源，导致能源消耗增加及对环境的负面影响。随着LLMs的广泛应用，其可持续性成为关键问题，亟需在不影响性能的前提下优化其运行效率。因此，识别显著影响LLMs性能和能源效率的参数至关重要。为此，本研究探讨了在推理过程中关键参数对LLMs性能和能源效率的影响，并分析了它们之间的权衡。

首先，我们通过基准测试Falcon-7B、Mistral-7B-v0.1、T5-3B、GPT-2、GPT-J-6B和GPT-Neo-2.7B等LLMs，分析了不同参数数量和架构的模型在文本生成、问答和摘要等任务上的表现。其次，我们研究了输入和输出序列特征（如序列长度）与能源消耗、性能和吞吐量之间的关系。最后，我们探讨了基于硬件的节能技术，即动态电压频率调整（DVFS），对模型延迟和能源效率的影响。通过广泛的基准测试和统计分析，我们揭示了许多有趣的发现，展示了具体优化如何在保持吞吐量和准确性的同时减少能源消耗。本研究为研究人员和从业者设计节能型LLM推理系统提供了可操作的见解。
总结: 本研究通过分析关键参数和动态电压频率调整技术，揭示了在LLM推理中优化能源效率与性能之间权衡的有效策略。

###【arXiv编号】2501.08219v1
###【git】
###【期刊】
###【领域】计算机科学 - 机器学习

[推荐指数：4]

该研究深入探讨了大型语言模型在推理过程中的能源效率与性能权衡，提供了实用的优化策略，对推动LLM的可持续发展具有重要意义。

—第14篇----

=====

Logic Augmented Generation

🔍 关键词: 语义知识图谱, 大型语言模型, 逻辑增强生成, 集体智能, 医疗诊断, 气候预测

PDF链接

摘要: 语义知识图谱（SKG）在可扩展性、灵活性、上下文理解以及处理非结构化或模糊信息方面面临挑战。然而，它们通过推理和查询提供高度可解释和可靠的结果，因为它们具备形式化和结构化知识。大型语言模型（LLMs）克服了这些限制，使其适用于开放任务和非结构化环境。然而，LLMs既不可解释也不可靠。为了解决LLMs和SKG之间的二分法，我们设想了逻辑增强生成（LAG），结合了两者的优势。LAG将LLMs用作反应性连续知识图谱，可以按需生成潜在的无限关系和隐性知识。SKG对于注入具有清晰逻辑和事实边界的离散启发式维度至关重要。我们在集体智能的两个任务中举例说明LAG，即医疗诊断和气候预测。理解LAG的属性和局限性（在很大程度上仍然未知）对于启用涉及隐性知识的各种任务至关重要，以提供可解释和有效的结果。
总结: 逻辑增强生成结合了大型语言模型与语义知识图谱的优势，提供了可解释且高效的集体智能任务解决方案。

###【arXiv编号】2411.14012v2
###【git】
###【期刊】
###【领域】人工智能, 计算语言学, 集体智能

[推荐指数：4]

=====

—第15篇----

=====

ASTRID – An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems

🔍 关键词: 大型语言模型, 临床问答系统, RAG, 评价指标

PDF链接

摘要: 大型语言模型（LLMs）在临床问答（QA）中展示了令人印象深刻的潜力，其中增强检索生成（RAG）成为确保模型响应事实准确性的领先方法。然而，当前的自动化RAG指标在临床和会话使用场景中的表现不佳。使用临床人员对响应的人工评估既昂贵、不可扩展，也不利于RAG系统的持续迭代开发。为解决这些挑战，我们引入了ASTRID——一个用于评估利用RAG的临床QA系统的自动化和可扩展的TRIaD——由三个指标组成：上下文相关性（CR）、拒绝准确性（RA）和会话忠实性（CF）。我们新颖的评估指标CF旨在更好地捕捉模型响应与知识库的忠实性，而不会惩罚会话元素。为了验证我们的三联，我们策划了一个包含200多个在全球最高量的白内障手术随访期间由LLM-based QA代理提出的真实患者问题的数据集，并补充了临床医生选择的紧急、临床和非临床的域外场景问题。我们证明，CF比现有的会话使用定义更能预测人类对忠实性的评分。此外，我们展示了使用包含CF、RA和CR的三联评估与临床医生对不当、有害或无帮助响应的评估一致。最后，使用九种不同的LLM，我们展示了这三个指标与人类评估高度一致，突显了这些指标在LLM驱动的自动化评估流程中的潜力。我们还公布了这些实验的提示和数据集，为进一步的研究和开发提供了宝贵资源。
总结: 本文提出了ASTRID评价框架，提升了RAG-based临床问答系统的自动化和可扩展性，对临床应用具有重要影响。

###【arXiv编号】: arXiv:2501.08208v1
###【git】: 无
###【期刊】: 无
###【领域】: 计算机科学，人工智能，临床问答系统

[推荐指数：4]

ASTRID框架创新性地结合多个评价指标，显著提升了临床问答系统的评估效果，具有较高的实用性和研究价值，适合在相关领域推广应用。

—第16篇----

=====

ArithmAttack: Evaluating Robustness of LLMs to Noisy Context in Math Problem Solving

🔍 关键词: 大型语言模型，抗噪能力，数学问题解决，鲁棒性，ArithmAttack

PDF链接

摘要: 虽然大型语言模型（LLMs）在数学问题解决任务中表现出令人印象深刻的能力，但它们对含有噪音输入的鲁棒性尚未得到充分研究。在本研究中，我们提出了ArithmAttack来检验LLMs在面对包含额外标点符号噪声的上下文时的鲁棒性。尽管实现简单，ArithmAttack不会造成任何信息丢失，因为上下文中未添加或删除单词。我们在嘈杂的GSM8K和MultiArith数据集上评估了包括LLama3、Mistral和Mathstral在内的七种LLMs的鲁棒性。实验结果表明，所有研究模型对这种噪声表现出脆弱性，噪声越多，性能越差。

总结: 该研究提出ArithmAttack方法评估大型语言模型在数学问题解决中的抗噪能力，并发现当前模型对噪音敏感，噪音越多性能越差。

###【arXiv编号】2501.08203v1

###【git】

###【期刊】

###【领域】计算机科学，计算语言学

[推荐指数：4]

该论文提出了一种简便有效的方法评估大型语言模型在数学问题解决中的鲁棒性，揭示了当前模型在应对输入噪声方面的不足，对于提升模型的实际应用性能具有重要意义。

—第17篇----

=====

Personalized LLM Response Generation with Parameterized Memory Injection

🔍 关键词: 大型语言模型, 个性化响应生成, 内存注入, 参数高效微调, 贝叶斯优化

链接1

摘要: 大型语言模型（LLMs）在理解和生成自然语言方面表现出显著的能力。另一方面，个性化LLM响应生成在医疗等关键领域为个体提供了显著的益处。现有研究探索了增强记忆的方法，通过预存的用户特定知识来提示LLM，以生成针对新查询的个性化响应。我们认为这种范式无法感知细粒度信息。在本研究中，我们提出了一种新颖的内存注入方法，使用参数高效的微调（PEFT）以及贝叶斯优化搜索策略，实现LLM个人化（MiLP）。总结: 本文提出了一种基于参数高效微调和贝叶斯优化的内存注入方法（MiLP），用于实现大型语言模型的个性化响应生成。

###【arXiv:2404.03565v3】

###【git】

###【期刊】

###【领域】计算机科学 - 计算语言学

[推荐指数：4]

该研究提出了新颖的内存注入方法，结合参数高效微调和贝叶斯优化策略，实现了大型语言模型的个性化响应，具有较高的创新性和在医疗等关键领域的潜在应用价值。

—第18篇----

=====

CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation

🔍 关键词: 大型语言模型, 代码生成, 功能性评估, 安全性评估

PDF链接

摘要: 大型语言模型（LLM）通过生成或协助编写代码显著提高了开发者在各种任务中的生产力。虽然识别错误代码通常较为简单，但检测功能正确代码中的漏洞更具挑战性，尤其对于缺乏安全知识的开发者而言，这给使用LLM生成代码带来了相当大的安全风险，并凸显了需要能够评估功能正确性和安全性的稳健评估基准。当前的基准如CyberSecEval和SecurityEval试图解决这一问题，但由于规范不明确和不切实际，无法准确评估功能性和安全性。为了解决这些缺陷，我们引入了CWEval，这是一种新颖的以结果为驱动的评估框架，旨在通过高质量的任务规范和结果驱动的测试可信基准，同时评估代码功能和安全性，从而提升LLM生成的安全代码评估的效果。结合CWEval-bench——一个多语言的、具有安全关键性的编码基准，CWEval在LLM生成的代码上提供了严格的实证安全评估，克服了之前基准的不足。通过我们的评估，CWEval揭示了LLM生成的大量功能性但不安全的代码，并显示之前的评估存在严重的不准确性，最终对安全代码生成领域做出了重大贡献。我们在GitHub上开源我们的工件：https://github.com/Co1lin/CWEval。
总结: CWEval通过同时评估大型语言模型生成代码的功能性和安全性，提供了一个高准确性的安全代码生成评估框架。

###【arXiv编号】2501.08200v1
###【git】https://github.com/Co1lin/CWEval
###【期刊】未发表
###【领域】计算机科学，软件工程，机器学习

[推荐指数：4]

CWEval提出了一个创新的评估框架，能够有效弥补现有基准在功能性和安全性评估上的不足，具有高度的实用性和创新性，对提升LLM生成代码的安全性评估具有重要意义。

—第19篇----

=====

文章名称

OpenCSG 中文语料库：一系列高质量中文数据集用于LLM训练

🔍 关键词: 大规模语言模型, 中文语料库, 预训练, 后训练, 微调

PDF链接

摘要: 大规模语言模型（LLMs）已展示出卓越的能力，但它们的成功在很大程度上依赖于预训练语料库的质量。对于中文LLMs，高质量的中文数据集稀缺是一个重大挑战，常常限制了它们的性能。为了解决这个问题，我们提出了OpenCSG中文语料库，这是一系列专门为LLM预训练、后训练和微调设计的高质量数据集。该语料库包括Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese和Smoltalk-chinese，每个数据集具有不同的特点：Fineweb-edu数据集专注于来自多样化中文网络来源的过滤高质量内容；Cosmopedia-chinese提供用于知识密集训练的合成教科书式数据；Smoltalk-chinese强调风格化和多样化的聊天格式数据。OpenCSG中文语料库的特点是高质量文本、覆盖领域多样化以及可扩展、可复制的数据整理过程。此外，我们进行了广泛的实验分析，包括在小规模参数模型上的评估，结果显示在C-Eval等任务中，该语料库显著提升了中文LLMs的性能，证明了该语料库在训练中文LLMs方面的有效性。

总结: OpenCSG中文语料库为中文LLM提供了高质量、多样化的数据集，有效提升了其训练性能。

###【arXiv编号】2501.08197v1

###【git】暂无

###【期刊】暂无

###【领域】计算机科学

###【推荐指数：4】

=====

—第20篇----

=====

文章名称

KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model

🔍 关键词: KaLM-Embedding, 嵌入模型, 多语言, 训练数据质量, 自回归语言模型

链接1

摘要: 随着增强检索生成在大型语言模型中的普及，嵌入模型变得日益重要。尽管一般嵌入模型数量不断增加，先前的工作往往忽视了训练数据质量的关键作用。在本文中，我们介绍了KaLM-Embedding，一种利用更多、更清洁、多样化和领域特定训练数据的通用多语言嵌入模型。我们的模型采用了一些被证明可以提升性能的关键技术：（1）基于个性的合成数据，用于创建从大型语言模型中提炼的多样化示例；（2）排名一致性过滤，以去除较少信息量的样本；（3）半同质任务批采样，以提高训练效率。与传统的类似BERT的架构不同，我们采用Qwen2-0.5B作为预训练模型，促进自回归语言模型在一般嵌入任务中的适应。我们在多种语言的MTEB基准测试的广泛评估表明，我们的模型在相同规模下优于其他模型，为多语言嵌入模型设立了新的标准，参数量不到10亿。

总结: KaLM-Embedding通过高质量多样化训练数据和创新技术，实现了领先的多语言嵌入性能。

###【arXiv:2501.01028v3】

###【期刊】: 未提供

###【领域】
计算机科学 - 计算语言学

[推荐指数：4]

=====

—第21篇----

=====

PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving

🔍 关键词: cs.AI, cs.AR, cs.DC

链接1

摘要: 大型语言模型（LLM）被广泛应用于各种应用中，但其巨大的计算需求带来了显著的挑战，特别是在HBM带宽瓶颈和设备间通信开销方面。本文提出了一种新颖的预取框架PRESERVE，旨在通过将模型权重和KV-cache的内存读取与集体通信操作重叠来优化LLM推理。通过在商业AI加速器上进行的广泛实验，我们展示了在最先进的开源LLM上端到端速度提升了最多1.6倍。此外，我们进行了设计空间探索，确定了所提方法的最佳硬件配置，选择最佳L2缓存大小进一步提升了1.25倍的性能/成本比。我们的结果表明，PRESERVE有潜力缓解内存瓶颈和通信开销，为提升LLM推理系统的性能和可扩展性提供了解决方案。
总结: PRESERVE通过预取模型权重和KV-Cache，优化分布式LLM推理性能，显著提升了速度和成本效益。

###【arXiv编号】
2501.08192

###【git】
暂无

###【期刊】
暂无

###【领域】
计算机科学、人工智能、架构与设计、数据中心

[推荐指数：4]

PRESERVE框架在优化LLM推理性能方面具有创新性和实用性，显著改善了内存和通信瓶颈，适用于提升大型语言模型的应用效率。

—第22篇----

=====

WebWalker: Benchmarking LLMs in Web Traversal

🔍 关键词: 大规模语言模型, 网页遍历, 检索增强生成, 多代理框架

链接1

摘要: 检索增强生成（RAG）在开放域问答任务中表现出色，但传统搜索引擎可能仅检索浅层内容，限制了大规模语言模型（LLMs）处理复杂多层次信息的能力。为了解决这一问题，我们引入了WebWalkerQA，这是一种旨在评估LLMs执行网页遍历能力的基准。它评估LLMs系统地遍历网站子页面以提取高质量数据的能力。我们提出了WebWalker，这是一种多代理框架，通过探索-评估范式模拟人类般的网页导航。大量实验结果表明，WebWalkerQA具有挑战性，并展示了RAG结合WebWalker在现实场景中的横向和纵向集成的有效性。
总结: 本文提出了WebWalkerQA基准和WebWalker多代理框架，旨在评估和提升大规模语言模型在网页遍历和数据提取方面的能力。
###【arXiv编号】2501.07572v2
###【git】
###【期刊】
###【领域】计算机科学，人工智能，计算语言学，信息检索

[推荐指数：4]

该研究通过引入新的基准和多代理框架，有效评估并提升了大规模语言模型在复杂网页遍历任务中的表现，具有较高的创新性和实用性，适用于相关领域的进一步研究和应用。

—第23篇----

=====

Potential and Perils of Large Language Models as Judges of Unstructured Textual Data

🔍 关键词: 大型语言模型, 无结构文本数据, 主题分析, 人工智能

链接1

摘要: 大型语言模型的快速发展在处理和总结无结构文本数据方面展现出显著能力。这对丰富、开放性的数据集分析具有重要意义，例如调查反馈，其中大型语言模型有望高效提炼关键主题和情感。然而，随着组织越来越多地依赖这些强大的人工智能系统来理解文本反馈，关键问题是，我们能否信任大型语言模型准确反映这些基于文本的数据集中的观点。尽管大型语言模型在生成类人摘要方面表现出色，但其输出可能会无意中偏离原始响应的真实内容。大型语言模型生成的输出与数据中实际存在的主题之间的差异可能导致决策错误，对组织产生深远影响。本研究探讨了大型语言模型作为评价模型的有效性，以评估其他大型语言模型生成的摘要的主题对齐性。我们利用Anthropic Claude模型从开放性调查响应中生成主题摘要，亚马逊的Titan Express、Nova Pro和Meta的Llama用作大型语言模型评委。大型语言模型作为评审的方法与使用Cohen’s kappa、Spearman’s rho和Krippendorff’s alpha的人类评估进行了比较，验证了这一可扩展的替代传统以人为中心的评估方法。我们的研究结果表明，虽然大型语言模型作为评委提供了与人类评分员相当的可扩展解决方案，但在人类可能更擅长检测细微、上下文相关的细微差别方面仍有优势。该研究为人工智能辅助文本分析的知识体系增长做出了贡献。我们讨论了研究的局限性，并为未来研究提供了建议，强调了在各种上下文和使用案例中推广大型语言模型评审模型时需要谨慎考虑。
总结: 本研究表明，大型语言模型在评估无结构文本数据中主题一致性方面具有可扩展性，但在人类对细微差别的检测能力上仍有不足。

###【2501.08167v1】
###【】
###【】
###【计算语言学，人工智能，计算机科学】

[推荐指数：4]

=====

—第24篇----

=====

I Can Find You in Seconds! Leveraging Large Language Models for Code Authorship Attribution

🔍 关键词: 作者归属检测, 源代码, 机器学习, 大型语言模型, 软件取证

PDF链接

摘要: 源代码作者归属检测在软件取证、抄袭检测以及保护软件补丁完整性方面至关重要。现有技术通常依赖于监督机器学习，由于需要大量有标签数据集，在不同编程语言和编码风格之间的泛化能力较弱。受自然语言作者归属分析中大型语言模型（LLM）取得的最新进展启发，这些模型在无需特定任务调优的情况下表现出色，本文探讨了将LLMs用于源代码作者归属检测的可行性。我们进行了全面研究，表明最先进的LLMs能够成功地在不同语言间进行源代码作者归属检测。LLMs可以通过零样本提示确定两段代码是否由同一作者编写，麦修相关系数（MCC）达到0.78，并且可以通过少量参考代码片段进行少样本学习，实现 MCC 0.77。此外，LLMs在对抗性防护方面显示出一定的鲁棒性。尽管具备这些能力，我们发现朴素地提示LLMs在作者数量较多时无法很好地扩展，主要是由于输入令牌的限制。为了解决这一问题，我们提出了一种锦标赛式的方法用于大规模归属检测。在来自GitHub的C++（500名作者，26,355个样本）和Java（686名作者，55,267个样本）数据集上的评估中，我们仅使用每位作者一个参考实现了C++ 65%的分类准确率和Java 68.7%的准确率。这些结果为将LLMs应用于网络安全和软件工程中的代码作者归属检测开辟了新的可能性。
总结: 本文展示了大型语言模型在源代码作者归属检测中的有效性，特别是在跨语言和多样化编码风格上的应用。

###【arXiv编号】2501.08165v1
###【git】
###【期刊】
###【领域】网络安全，软件工程

[推荐指数：4]

本文创新性地将大型语言模型应用于源代码作者归属检测，克服了现有方法在泛化能力上的不足，并在实际大规模数据集上取得了令人满意的结果，具有较高的学术价值和实用潜力。

—第25篇----

=====

Inductive Learning of Logical Theories with LLMs: An Expressivity-Graded Analysis

🔍 关键词: cs.CL, cs.AI, cs.LO, I.2.7

链接1

摘要: 本研究提出了一种新颖的系统方法，利用形式推理引擎的反馈分析大语言模型（LLMs）在逻辑理论归纳中的能力和限制。该分析基于规则依赖结构的复杂性分级，允许量化LLM性能面临的特定推理挑战。将LLM与形式方法集成是自然语言处理领域一个有前景的前沿方向，作为改进模型推理控制和可解释性的一个重要途径。特别是，对复杂事实和规则集的归纳学习对当前自回归模型提出了独特的挑战，因为它们缺乏明确的符号基础。尽管可以通过形式系统进行补充，但LLM在归纳学习方面所提供的特性尚未得到充分理解和量化。实证结果表明，最大的LLM在与一流的归纳逻辑编程（ILP）系统基线相比，可以取得具有竞争力的结果，但跟踪长期谓词关系链对LLM来说比理论复杂性更具挑战性。
总结: 该研究表明，大型语言模型在逻辑理论归纳学习中虽具竞争力，但在处理长期谓词关系上仍面临显著挑战。

###【arXiv:2408.16779v2】
###【git】
###【期刊】
###【领域】
计算机科学、人工智能、逻辑学

[推荐指数：4]

本研究通过引入复杂性分级分析，系统地评估了大语言模型在逻辑理论归纳中的表现，具有较高的创新性和实用性，尽管在某些挑战上仍有改进空间。

—第26篇----

=====

Refusal Behavior in Large Language Models: A Nonlinear Perspective

🔍 关键词: 无

PDF链接

摘要: 大型语言模型（LLMs）中的拒绝行为使它们能够拒绝回应有害、不道德或不适当的提示，从而确保与伦理标准的一致性。本文调查了来自三个架构家族的六种大型语言模型的拒绝行为。我们通过采用降维技术，包括PCA、t-SNE和UMAP，挑战了将拒绝行为视为线性现象的假设。结果显示，拒绝机制表现出非线性、多维的特性，这些特性因模型架构和层次而异。这些发现凸显了非线性可解释性对于改进一致性研究和制定更安全的AI部署策略的必要性。总结: 这项研究表明，大型语言模型的拒绝行为具有复杂的非线性和多维特性，依赖于模型架构和层次，强调了非线性可解释性对于AI对齐和安全部署的重要性。

###【arXiv编号】2501.08145v1

###【git】

###【期刊】

###【领域】计算机科学 - 计算语言学，人工智能

[推荐指数：4]

该研究通过非线性降维技术深入分析大型语言模型中的拒绝行为，揭示了其复杂的多维特性，推动了AI对齐与安全部署研究的发展，具有较高的创新性和实用性。

—第27篇----

=====

文章名称

🔍 关键词: 大型语言模型, 文献综述, 自动化, 评估框架

链接1

摘要: 文献综述是学术写作中的一种关键形式，涉及文献收集、组织和总结等复杂过程。大型语言模型（LLMs）的出现为自动化这些过程提供了有前景的工具。然而，它们在撰写全面的文献综述方面的实际能力仍未得到充分探索，例如它们是否能够生成准确且可靠的参考文献。为填补这一空白，我们提出了一个框架，以自动评估LLMs的文献综述写作能力。我们在生成参考文献、撰写摘要和撰写文献综述三个任务上评估了LLMs的性能。我们采用外部工具进行多维度评估，包括评估参考文献中的虚构率、语义覆盖率以及与人类撰写内容的事实一致性。通过分析实验结果，我们发现，尽管有进步，即使是最复杂的模型仍无法避免生成虚构的参考文献。此外，不同模型在不同学科的文献综述写作中表现出不同的性能。
总结: 尽管大型语言模型在文献综述写作中有所进步，但仍存在生成虚构参考文献的问题，不同模型在不同学科的表现也有所差异。
###【arXiv:2412.13612v2】
###【git】
###【期刊】
###【领域】计算机科学, 人工智能

[推荐指数：4]

该研究提出了评估大型语言模型在文献综述写作中的系统框架，深入分析了模型在生成参考文献和语义覆盖等方面的性能，为提高LLMs的学术写作能力提供了有价值的见解，具有较高的创新性和实用性。

—第28篇----

=====

AttriBoT: A Bag of Tricks for Efficiently Approximating Leave-One-Out Context Attribution

🔍 关键词: cs.LG

链接1

摘要: 大型语言模型（LLMs）中上下文输入对其行为的影响促使了上下文归因方法的发展，旨在量化每个上下文片段对LLM生成结果的影响。留一法（LOO）误差，衡量在移除给定上下文片段时LLM响应的概率变化，提供了一种进行上下文归因的原则性方法，但对于大型模型来说计算成本可能过高。在本研究中，我们提出了AttriBoT，一系列用于高效计算上下文归因的LOO误差近似的新技术。具体来说，AttriBoT利用缓存激活避免冗余操作，执行分层归因以减少计算量，并通过较小的代理模型模拟大型目标模型的行为。综合而言，AttriBoT可以提供超过300倍的速度提升，同时保持对目标模型LOO误差的忠实性，优于之前的上下文归因方法。这一显著的性能提升使得为给定响应计算上下文归因的速度比生成响应本身快30倍，促进了需要在规模上计算归因的实际应用。我们发布了一个用户友好且高效的AttriBoT实现，以支持高效的LLM解释性，并鼓励未来高效上下文归因方法的发展。
总结: AttriBoT通过一系列创新技术极大提高了上下文归因的计算效率，超过300倍加速同时保持高忠实性，推动了大规模LLM解释性的应用。

###【arXiv编号】
2411.15102v2

###【git】
无

###【期刊】
无

###【领域】
计算机科学，机器学习，语言模型解释

[推荐指数：5]

AttriBoT提出一系列高效计算上下文归因的创新技术，显著提升了计算速度并保持高忠实性，对大规模LLM解释性应用具有重要实用价值。

—第29篇----

=====

Consistency of Responses and Continuations Generated by Large Language Models on Social Media

🔍 关键词: cs.CL, cs.AI, cs.HC

PDF链接

摘要: 大型语言模型（LLMs）在文本生成方面表现出卓越的能力，然而它们在社交媒体环境中情感一致性和语义连贯性方面的表现尚未得到充分了解。本研究通过使用两个开源模型：Gemma和Llama，研究了LLMs如何处理情感内容并在续写和响应任务中保持语义关系。通过分析Twitter和Reddit上关于气候变化的讨论，我们考察了情感转变、强度模式以及人类撰写内容与LLM生成内容之间的语义相似性。研究结果表明，尽管这两个模型保持了较高的语义连贯性，但它们表现出不同的情感模式：Gemma倾向于放大负面情绪，特别是愤怒，同时保持一定的积极情绪，如乐观；而Llama在更广泛的情感范围内展示了更优越的情感保留能力。两种模型在系统性生成的响应中，情感强度均较人类撰写内容减弱，并且在响应任务中表现出对积极情绪的偏向。此外，尽管在续写和响应任务中的表现有所不同，但这两种模型都能与原始文本保持强烈的语义相似性。这些发现为LLMs的情感和语义处理能力提供了见解，对它们在社交媒体环境中的部署和人机交互设计具有重要意义。
总结: 本研究分析了大型语言模型在社交媒体中生成内容时的情感一致性和语义连贯性，发现不同模型在情感处理上存在显著差异，并对其在社交媒体和人机交互中的应用提出了见解。
###【arXiv编号】arXiv:2501.08102v1
###【git】
###【期刊】
###【领域】计算机科学、人工智能、人机交互

[推荐指数：4]

该论文深入探讨了大型语言模型在社交媒体内容生成中的情感和语义处理能力，提供了关于模型行为的重要见解，具有较高的创新性和实用性，有助于优化人机交互设计和社交媒体内容管理。

—第30篇----

=====

层级自动扩展用于大型语言模型服务的Chiron

🔍 关键词: 大型语言模型, 自动扩展, 服务水平目标, GPU效率

PDF链接

摘要: 大型语言模型（LLM）服务正在成为云服务提供商日益重要的工作负载。根据性能服务水平目标（SLO）要求，LLM推理请求可以分为具有秒级紧凑SLO的交互式请求和具有分钟到小时级宽松SLO的批量请求。这些SLO可能会因到达率、多路复用和配置参数而下降，因此需要对服务实例和其批量大小进行资源自动扩展。然而，先前用于LLM服务的自动扩展器没有考虑请求的SLO，导致不必要的扩展和资源利用不足。为了解决这些限制，我们引入了Chiron，这是一种利用队列大小、利用率和SLO估计的层级反压的自动扩展器。我们的实验表明，与现有解决方案相比，Chiron实现了高达90%的SLO达成率，并提高了高达70%的GPU效率。
总结: Chiron通过层级反压机制显著提升了大型语言模型服务的SLO达成率和GPU资源效率。

###【arXiv编号】2501.08090v1
###【git】
###【期刊】
###【领域】计算机科学 - 分布式计算，人工智能

[推荐指数：4]

=====

—第31篇----

=====

使用知识图谱嵌入作为附加模态来解决语言模型中的幻觉问题

🔍 关键词: cs.CL, cs.AI

链接1

摘要: 在本文中，我们提出了一种通过将知识图谱作为附加模态引入大型语言模型（LLMs）以减少其幻觉现象的方法。我们的方法包括将输入文本转换为一组知识图谱嵌入，并使用适配器将这些嵌入整合到语言模型空间中，而无需依赖外部检索过程。为此，我们创建了WikiEntities，这是一个包含超过300万条Wikipedia文本、使用Wikidata实体及其来自PyTorch-BigGraph的相应嵌入进行标注的数据集。该数据集是训练实体链接模型和通过专用适配器将所述方法适配到各种LLMs的宝贵资源。我们的方法不需要对语言模型本身进行微调；相反，我们只训练适配器。这确保了模型在其他任务上的性能不受影响。我们使用该数据集为Mistral 7B、LLaMA 2-7B（聊天）和LLaMA 3-8B（指令）模型训练了适配器，并证明了我们的方法在HaluEval、True-False基准和FEVER数据集上提升了性能。结果表明，引入知识图谱作为新模态可以有效减少幻觉现象并提高语言模型的事实准确性，且无需依赖外部检索。总结: 该研究通过引入知识图谱嵌入作为附加模态，有效减少了大型语言模型的幻觉现象并提升了事实准确性。###【arXiv编号】 arXiv:2411.11531###【领域】计算机科学-计算语言学，人工智能

[推荐指数：4]

该方法创新性地将知识图谱嵌入整合到语言模型中，实用性较高并有效改善了模型的可靠性。

—第32篇----

=====

JsonTuning: Towards Generalizable, Robust, and Controllable Instruction Tuning

🔍 关键词: 指令调优, 大型语言模型, JsonTuning, TextTuning, 泛化, 鲁棒性, 可控性

PDF链接

摘要: 指令调优对于提升大型语言模型（LLMs）的性能至关重要，但现有的文本到文本方法，即TextTuning，由于缺乏明确的任务结构，面临着泛化、鲁棒性和可控性等问题。我们提出了JsonTuning，这是一种结构到结构的方法，使用JSON结构来表示任务。该方法通过明确任务元素及其关系来提升泛化能力，通过最小化歧义性来增强鲁棒性，并通过允许精确控制输出以提高可控性。我们使用各种语言模型和基准对JsonTuning与TextTuning进行了广泛的对比分析。研究结果显示，在不同场景下，JsonTuning在性能、鲁棒性和可控性方面始终优于TextTuning。通过克服TextTuning的局限性，JsonTuning展现了开发更有效、可靠的LLMs以处理多样化场景的显著潜力。
总结: JsonTuning通过引入JSON结构显著提升了指令调优的泛化性、鲁棒性和可控性，优于传统的TextTuning方法。
###【arXiv编号】2310.02953v4
###【git】
###【期刊】
###【领域】计算机科学 - 自然语言处理

[推荐指数：4]

JsonTuning提出了一种创新的结构化方法来改进大型语言模型的指令调优，显著提升了模型的泛化性、鲁棒性和可控性，具有较高的实用价值和应用前景。

—第33篇----

=====

CuAsmRL: Optimizing GPU SASS Schedules via Deep Reinforcement Learning

🔍 关键词: GPU SASS 优化, 深度强化学习, CUDA 内核, 自动调度

链接1

摘要: 大型语言模型（LLMs）以其巨大的计算需求而著称。为减轻成本，研究人员开发了专门的CUDA内核，这些内核通常融合多个张量操作以最大限度地利用GPU。然而，这些专用内核可能仍然存在性能提升空间，因为CUDA汇编专家表明，GPU SASS调度的手动优化可以带来更好的性能，且试错法被广泛用于手动寻找最佳GPU SASS调度。本研究采用自动化方法优化GPU SASS调度，可集成到现有的编译器框架中。自动优化的关键是训练一个强化学习（RL）代理，以模仿人类专家的手动调度方式。为此，我们构建了一个汇编游戏，RL代理可以在其中玩耍以寻找最佳GPU SASS调度。汇编游戏从 -O3 优化的SASS调度开始，RL代理可以迭代地应用动作来修改当前的调度。如果修改后的调度在GPU上执行时获得更高的吞吐量，则会生成正奖励。实验表明，CuAsmRL可以进一步透明地提高现有专用CUDA内核的性能，最高提升26%，平均提升9%。此外，它还被用作揭示自动学习到的潜在优化手段的工具。
总结: 本文提出了CuAsmRL，通过深度强化学习自动优化GPU SASS调度，显著提升CUDA内核性能。
###【arXiv编号】: 2501.08071v1
###【git】:
###【期刊】:
###【领域】: 计算机科学

[推荐指数：5]

CuAsmRL提出了一种创新的自动化方法，通过深度强化学习优化GPU SASS调度，有效提升CUDA内核性能，具有高度的创新性和实用价值。

—第34篇----

=====

A Roadmap to Guide the Integration of LLMs in Hierarchical Planning

🔍 关键词: 大型语言模型, 分层规划, 自动化规划, 集成方法, 基准测试

PDF链接

摘要: 最近大型语言模型（LLMs）的进展正在促进它们在多个与推理相关的领域中的集成，包括自动化规划（AP）。然而，它们在分层规划（HP）中的集成，作为AP的一个子领域，利用分层知识来提升规划性能，仍然在很大程度上未被探索。在这项初步工作中，我们提出了一份路线图，以解决这一差距并利用LLMs在HP中的潜力。为此，我们提出了一种集成方法的分类法，探讨了LLMs如何在HP生命周期中被利用。此外，我们提供了一个标准化数据集的基准，用于评估未来基于LLM的HP方法的性能，并展示了一个最先进的HP规划器和LLM规划器的初步结果。正如预期的那样，后者表现出有限的性能（3%计划正确，且无一个具有正确的分层分解），但作为未来方法的有价值的基准。
总结: 虽然当前LLMs在分层规划中的表现有限，但本研究为未来的整合方法提供了重要的基础和基准。

###【arXiv编号】2501.08068
###【git】
###【期刊】
###【领域】计算机科学，人工智能

[推荐指数：3]

该研究首次提出将大型语言模型整合到分层规划中的路线图，尽管初步结果有限，但为未来研究提供了重要的基准和方向。

—第35篇----

=====

TreeKV: Smooth Key-Value Cache Compression with Tree Structures

🔍 关键词: 键值缓存压缩, 树结构, 大规模语言模型, Transformer, 长序列

PDF链接

摘要: 高效的键值（KV）缓存压缩对于在长序列和资源有限的环境下扩展基于Transformer的大规模语言模型（LLMs）至关重要。现有方法基于位置或重要性分数驱逐token，但基于位置的策略可能会错过预定义区域之外的重要信息，而依赖全局重要性分数的方法会导致强烈的区域偏差，限制KV缓存的整体上下文保留，并可能损害LLMs在复杂任务上的性能。我们的波let分析表明，随着token接近序列末尾，其对生成的贡献逐渐增加，并趋向于与邻近token的贡献差异更大，这表明从远到近的上下文过渡变得更加平滑，复杂性和变化性增加。基于这一观察，我们提出了TreeKV，这是一种直观的、无需训练的方法，采用树结构进行平滑的缓存压缩。TreeKV保持固定的缓存大小，使LLMs即使在长文本场景中也能提供高质量的输出。与大多数压缩方法不同，TreeKV适用于生成和预填充阶段。TreeKV在PG19和OpenWebText2上的语言建模任务中持续超越所有基线模型，使使用短上下文窗口训练的LLMs能够通过16倍缓存减少推广到更长的窗口。在Longbench基准测试中，TreeKV以最佳性能实现了仅6％的预算的最优效率。

总结: TreeKV通过树结构实现平滑且高效的KV缓存压缩，显著提升了大规模语言模型在长文本场景下的性能。

###【arXiv编号】2501.04987v2

###【git】

###【期刊】

###【领域】计算机科学 - 计算语言学

[推荐指数：4]

=====

—第36篇----

=====

Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition

🔍 关键词: Audio-Agent, 大型语言模型, 音频生成, 编辑, 创作

链接1

摘要: 我们介绍了Audio-Agent，这是一个基于文本或视频输入的多模态音频生成、编辑和创作框架。传统的文本到音频（TTA）任务方法通常从文本描述中进行单次推断。虽然简单直接，但在面对复杂文本条件时，此设计难以产生高质量的音频。在我们的方法中，我们利用一个预训练的TTA扩散网络作为音频生成代理，与GPT-4协同工作，将文本条件分解为原子和具体的指令，并调用代理进行音频生成。通过这种方式，Audio-Agent能够生成与提供的文本或视频紧密对齐的高质量音频，展现复杂和多重事件，同时支持可变长度和可变音量的生成。对于视频到音频（VTA）任务，大多数现有方法需要训练时间戳检测器以将视频事件与生成的音频同步，这一过程可能既繁琐又耗时。相反，我们提出了一种更简单的方法，通过微调一个预训练的大型语言模型（LLM），如Gemma2-2B-it，以获取语义和时间条件，桥接视频和音频模态。因此，我们的框架为TTA和VTA任务提供了一个全面的解决方案，而无需在训练中承担大量的计算开销。
总结: Audio-Agent通过结合预训练的TTA扩散网络和GPT-4，提供了一种高效的多模态音频生成和编辑解决方案。
###【arXiv:2410.03335v2】
###【期刊】: 未提供
###【领域】: 计算机科学 - 声音处理、计算机视觉、机器学习、电气与系统工程 - 音频与语音

[推荐指数：4]

该研究创新性地将大型语言模型与音频生成扩散网络结合，实现了复杂条件下的高质量音频生成，具有显著的实用性和应用潜力。

—第37篇----

=====

EventHallusion: Diagnosing Event Hallucinations in Video LLMs

🔍 关键词:

PDF链接

摘要: 最近，多模态大型语言模型（MLLMs）在视频理解领域取得了显著的进展。尽管它们在内容推理和指令遵循能力方面表现出色，但相比于图像领域，这些视频语言模型（VideoLLMs）在幻觉问题上的研究相对较少。为缩小这一差距，我们提出了EventHallusion，这是一个新颖的基准，专注于评估VideoLLMs在事件方面的幻觉问题，这是视频分析的关键。从幻觉归因的角度，我们的EventHallusion基准旨在评估VideoLLM对语言先验和视觉-语言偏差的敏感性。另一方面，我们还提出了一种简单而有效的方法，称为时间对比解码（Temporal Contrastive Decoding, TCD），以解决VideoLLMs的幻觉问题。所提出的TCD方法通过比较原始视频与一个修改版本（其中时间线索被破坏）来纠正模型在解码阶段对先验的偏见。通过在所提出的EventHallusion基准上对八个开源和两个闭源的视频语言模型进行全面评估，我们观察到开源模型在幻觉问题上表现显著不佳，而闭源模型表现明显更好。通过进一步为开源VideoLLMs配备所提出的TCD方法，在EventHallusion基准的大多数指标上都实现了明显的性能提升。我们的代码和基准数据可在GitHub链接获取。
总结: 作者提出了一个新的基准和解码方法，以评估和减少视频语言模型在事件理解中的幻觉问题，并通过实验证明了其有效性。

###【arXiv编号】2409.16597v3

###【git】https://github.com/Stevetich/EventHallusion

###【期刊】

###【领域】计算机视觉

[推荐指数：4]

本文提出了一个新颖的基准和方法，有助于提升视频语言模型的准确性，具有较高的创新性和实用价值。

—第38篇----

=====

MiniRAG: Towards Extremely Simple Retrieval-Augmented Generation

🔍 关键词: 生成式模型, 检索增强生成, 轻量化系统

链接1

摘要: 对高效且轻量级的检索增强生成（RAG）系统日益增长的需求，突显了在现有RAG框架中部署小型语言模型（SLMs）所面临的重大挑战。当前的方法由于SLMs在语义理解和文本处理能力上的有限，导致性能严重下降，成为资源受限场景中广泛采用的障碍。为了解决这些根本性限制，我们提出了MiniRAG，这是一种旨在实现极致简单性和高效性的全新RAG系统。MiniRAG引入了两项关键技术创新：（1）一种语义感知的异构图索引机制，将文本片段和命名实体组合在统一结构中，减少对复杂语义理解的依赖；（2）一种轻量级的拓扑增强检索方法，利用图结构实现高效的知识发现，而无需先进的语言能力。我们的大量实验证明，即使在使用SLMs的情况下，MiniRAG也能达到与基于大型语言模型（LLM）的方法相当的性能，同时仅需25%的存储空间。此外，我们还贡献了一个综合基准数据集，用于在具有复杂查询的现实设备场景下评估轻量级RAG系统。我们已在https://github.com/HKUDS/MiniRAG上完全开源了我们的实现和数据集。
总结: MiniRAG通过简化架构和创新的图索引机制，实现了高效且轻量级的检索增强生成系统。
###【arXiv编号】2501.06713v2
###【git】https://github.com/HKUDS/MiniRAG
###【期刊】
###【领域】计算机科学, 人工智能

[推荐指数：4]

MiniRAG在检索增强生成系统中通过简化架构和创新的图索引机制显著提升了效率和存储利用率，具有较高的创新性和实用性。

—第39篇----

=====

Transformers 和大型语言模型在高效入侵检测系统中的应用：全面调研

🔍 关键词: 计算机安全, 人工智能, 自然语言处理, 入侵检测系统, 变压器

PDF链接

摘要: 随着变压器大型语言模型在自然语言处理领域的显著进展，NLP 因其在文本生成和用户交互方面的增强能力而扩展到许多研究领域。其中一个受益匪浅的领域是网络安全。在网络安全中，许多需要保护和在发送方与接收方之间交换的参数以文本和表格数据形式存在，使得 NLP 成为提升通信协议安全措施的宝贵工具。本文综述性论文全面分析了变压器和大型语言模型在网络威胁检测系统中的应用。论文概述了文献选择方法和文献计量分析，以建立评估现有研究的严谨框架。讨论了变压器的基本原理，包括各种网络攻击和该领域常用的数据集的背景信息。综述探讨了变压器在入侵检测系统中的应用，重点关注不同的架构，如基于注意力的模型、BERT 和 GPT 等大型语言模型、CNN/LSTM-变压器混合模型、新兴方法如 ViTs 等。此外，论文还探讨了基于变压器和大型语言模型的入侵检测系统在计算机网络、物联网设备、关键基础设施保护、云计算、软件定义网络（SDN）以及自动驾驶车辆中的多样化环境和应用。本文还讨论了该领域的研究挑战和未来方向，识别了关键问题如可解释性、可扩展性以及适应不断演变的威胁等。最后，结论总结了研究发现，并强调了变压器和大型语言模型在增强网络威胁检测能力方面的重要性，同时概述了进一步研究和发展的潜在方向。
总结: 本文全面评述了变压器和大型语言模型在网络威胁检测系统中的应用及未来研究方向。
###【arXiv:2408.07583v2】
###【git】
###【期刊】
###【领域】计算机安全, 人工智能, 自然语言处理, 计算机视觉, 音频与语音处理

[推荐指数：4]

本文系统性地分析了变压器和大型语言模型在网络安全领域入侵检测系统中的应用，内容详实且具有高度的实用价值，尽管作为综述文章创新性稍显不足，但对相关研究具有重要的参考意义。

—第40篇----

=====

TriAdaptLoRA: Brain-Inspired Triangular Adaptive Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

🔍 关键词: 计算机科学, 人工智能, 大型语言模型, 参数高效微调, 低秩适配

链接1

摘要: 大型语言模型（LLMs）的微调对于在各种下游任务中实现最佳性能至关重要。然而，虽然完全微调能够提供卓越的结果，但它需要显著的计算和资源成本。参数高效微调（PEFT）方法，如LoRA，通过减少可训练参数的数量，解决了这些挑战，但它们往往在秩调整效率和任务特定适应性方面存在困难。我们提出了三角自适应低秩适配（TriAdaptLoRA），这是一种受神经科学原理启发的新颖PEFT框架，能够动态优化可训练参数的分配。TriAdaptLoRA引入了三项关键创新：1）将变换矩阵分割为下三角和上三角组件，以最大化参数利用率；2）基于标准化Frobenius范数的参数重要性度量，以实现高效适应；3）由动态阈值控制的自适应秩增长策略，允许在训练步骤中灵活分配参数。在各种自然语言理解和生成任务上进行的实验表明，TriAdaptLoRA在现有PEFT方法上始终表现优异。它在性能、稳定性和计算开销方面表现出色，特别是在基于线性阈值驱动的秩增长下。这些结果突显了其作为一个可扩展且资源高效的LLMs微调解决方案的有效性。
总结: TriAdaptLoRA通过创新的低秩适配方法，实现了大型语言模型微调的高效性和性能优化。
###【arXiv编号】
2501.08008v1
###【领域】
计算机科学，人工智能，机器学习

[推荐指数：4]

TriAdaptLoRA在参数高效微调领域提出了具有创新性的三角分割和自适应秩增长策略，不仅提升了模型性能，还降低了计算成本，具有较高的实用价值。

—第41篇----

=====

基于大型语言模型增强的整体架构用于临时可扩展的系统之系统

🔍 关键词: 人工智能, 新兴技术, 多智能体系统, 软件工程

PDF链接

摘要: 随着现代系统之系统（SoS）变得越来越具有适应性和以人为中心，传统架构往往难以支持互操作性、可重构性和有效的人机系统交互。本文通过推进SoS的整体架构的最新技术，解决这些挑战，提供了两项主要贡献以支持这些适应性需求。首先，我们提出了一个包含推理、通信和能力层的整体层次架构设计。该设计通过改进数据交换和集成，促进异构组成系统之间的无缝互操作性。其次，受智能制造原则的启发，我们引入了专门的整体单元，即监督者、计划者、任务和资源整体单元，旨在增强SoS的适应性和可重构性。这些专门的整体单元在其推理层中利用大型语言模型来支持决策制定并确保实时适应性。我们通过一个针对智慧城市交通的3D移动案例研究展示了我们的方法，展示了其在管理复杂、多模式SoS环境中的潜力。此外，我们提出了评估架构效率和可扩展性的方法，为未来通过仿真和实际实施进行实证验证奠定了基础。
总结: 该研究提出了一种结合大型语言模型的整体论架构，显著提升了智慧城市交通系统的适应性和可扩展性。

###【arXiv编号】2501.07992v1
###【git】
###【期刊】
###【领域】智慧城市交通

[推荐指数：4]

=====

—第42篇----

=====

One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks

🔍 关键词: 大型语言模型、公平性、方言鲁棒性、推理任务

PDF链接

GitHub链接

摘要: 语言不是单一的。虽然包括多语言设计的基准测试常被用来评估大型语言模型（LLMs）的表现，但它们往往忽略了语言内部的变异细微差别，因此无法模拟非标准方言使用者的体验。本文聚焦于非洲裔美国英语（AAVE），首次客观评估LLMs在处理方言方面的公平性和鲁棒性，涵盖算法、数学、逻辑和综合推理等标准推理任务。我们提出了ReDial（带方言查询的推理）基准，包含1200多个标准英语和AAVE的平行查询对。我们聘请有计算机科学背景的AAVE使用者重写了包括HumanEval和GSM8K在内的七个流行基准。通过ReDial，我们评估了广泛使用的LLMs，包括GPT、Claude、Llama、Mistral和Phi模型系列。研究发现，这些广泛使用的模型几乎都对AAVE查询表现出显著的脆弱性和不公平性。我们的工作建立了一个系统且客观的框架，用于分析LLM在方言查询中的偏见。此外，还突显出主流LLMs在推理任务中如何对方言使用者提供不公平的服务，为相关未来研究奠定了重要基础。代码和数据可在https://github.com/fangru-lin/redial_dialect_robustness_fairness访问。

总结: 本文通过ReDial基准，首次系统评估了大型语言模型在处理非洲裔美国英语方言时的公平性和鲁棒性，揭示了现有模型的显著不足。

###【arXiv编号】2410.11005v2

###【git】https://github.com/fangru-lin/redial_dialect_robustness_fairness

###【期刊】未公布

###【领域】自然语言处理、机器学习、语言公平性

[推荐指数：4]

该研究首次系统性评估大型语言模型在处理非标准方言时的公平性与鲁棒性，提出了全新的ReDial基准，并揭示了现有主流模型在公平性方面的显著不足，对促进语言模型的公平性研究具有重要意义。

—第43篇----

=====

Self-Instruct Few-Shot Jailbreaking: Decompose the Attack into Pattern and Behavior Learning

🔍 关键词: 少样本越狱, 大型语言模型, 模式学习, 行为学习, 安全性

PDF链接

摘要: 近期，一些研究致力于通过少样本恶意示例对大型语言模型（LLMs）进行越狱攻击。特别地，Zheng 等人（2024）通过在示例中注入特殊符号并采用示例级随机搜索，提高了少样本越狱（FSJ）的效率。然而，该方法缺乏通用性，因为它具体指定了指令-响应结构。此外，插入特殊符号诱导有害行为的原因仅通过经验讨论。本文深入探讨了特殊符号注入的机制，并提出了通过示例级贪婪搜索促进的自指令少样本越狱（Self-Instruct-FSJ）。该框架将 FSJ 攻击分解为模式学习和行为学习，以更通用和高效的方式利用模型的脆弱性。我们进行了详尽的实验，评估了我们的方法在常见开源模型上的表现，并与基线算法进行了比较。我们的代码可在 GitHub 获取。

总结: 本文提出了一种通过模式和行为学习分解的自指令少样本越狱方法，提升了对大型语言模型攻击的通用性和效率。

###【arXiv编号】2501.07959v1

###【git】https://github.com/iphosi/Self-Instruct-FSJ

###【期刊】未发布

###【领域】计算机科学, 人工智能, 语言模型安全

[推荐指数：4]

=====

—第44篇----

=====

Gandalf the Red: Adaptive Security for LLMs

🔍 关键词: 大型语言模型, 自适应安全, 对抗攻击, 用户体验

PDF链接

摘要: 当前针对大型语言模型（LLM）应用中提示攻击防御的评估常常忽视两个关键因素：对抗行为的动态性以及限制性防御措施对合法用户造成的可用性惩罚。我们提出了D-SEC（动态安全实用性威胁模型），该模型明确区分攻击者与合法用户，模拟多步交互，并严格表达安全性与实用性的优化形式。我们通过引入Gandalf，一个众包的游戏化红队平台，生成了真实的自适应攻击数据集，从而解决了现有评估中的不足。使用Gandalf，我们收集并发布了一个包含27.9万次提示攻击的数据集。结合良性用户数据的分析揭示了安全性与实用性之间的相互作用，显示即使不阻止请求，集成在LLM中的防御措施（例如系统提示）也会降低可用性。我们证明，限制应用领域、深度防御和自适应防御是构建安全且有用的LLM应用的有效策略。代码可在 GitHub 获取。

总结: 该研究提出了一种动态安全模型和一个红队平台，显著提升了大型语言模型的安全性与实用性。

###【arXiv编号】arXiv:2501.07927v1

###【git】https://github.com/lakeraai/dsec-gandalf

###【期刊】未指定

###【领域】计算机科学 - 机器学习、人工智能、计算语言学、计算机安全

[推荐指数：4]

=====

—第45篇----

=====

家庭能源管理系统的大型语言模型接口

🔍 关键词: 大型语言模型, 家庭能源管理系统, 参数化, ReAct, 少样本提示

链接1

摘要: 家庭能源管理系统（HEMS）帮助家庭根据电力系统信号如能源价格调整电力使用。这项技术有助于降低能源账单，并提供更大的需求侧灵活性，支持电力系统稳定性。然而，缺乏技术背景的居民可能难以有效使用HEMS，因为HEMS需要良好格式化的参数化，以反映能源资源、房屋和用户需求的特征。最近，大型语言模型（LLMs）在语言理解方面展示了卓越的能力。受此启发，我们提出了一种基于LLM的接口，与用户互动以理解和参数化他们的“格式不良回答”，然后输出良好格式化的参数以实施HEMS。我们进一步使用Reason and Act方法（ReAct）和少样本提示来增强LLM的性能。评估接口性能需要多次用户与LLM的交互。为了避免寻找志愿用户的努力并缩短评估时间，我们额外提出了一种方法，使用另一个LLM模拟具备不同专业知识的用户，范围从知识丰富到非技术用户。通过全面评估，所提出的基于LLM的HEMS接口实现了平均参数检索准确率为88%，优于没有ReAct和/或少样本提示的基准模型。
总结: 本文提出了一种基于大型语言模型的家庭能源管理系统接口，显著提升了参数检索的准确性。

###【arXiv编号】2501.07919v1
###【git】无
###【期刊】无
###【领域】计算机科学，人工智能，家庭能源管理

[推荐指数：4]

该研究创新性地将大型语言模型应用于家庭能源管理系统接口设计，通过模拟不同用户行为提高了系统的实用性和准确性，具有较高的应用潜力。

—第46篇----

=====

UTMath：通过推理转编码思维的单元测试进行数学评估

🔍 关键词: 计算语言学、人工智能、数学评估、大型语言模型

链接1

摘要: 数学推理能力的评估对于推进通用人工智能（AGI）至关重要。虽然大型语言模型（LLMs）在解决数学问题方面表现出令人印象深刻的性能，但现有的基准测试如GSM8K和MATH存在局限性，包括具有特定数字的狭窄问题定义以及依赖预先确定的规则，这些限制了推理和泛化能力的准确评估。本文介绍了UTMath基准，这是一个健全的评估框架，旨在通过广泛的单元测试评估LLMs，重点关注模型响应的准确性和泛化性。它包含1053个涵盖九个数学领域的前沿问题，每个问题平均有68个测试用例。UTMath具有高度挑战性，表现最佳的模型o1-mini仅解决了32.57%的问题，其次是o1-preview为27.16%，GPT-4o为26.93%。此外，我们提出了推理转编码思维（RCoT）方法，鼓励LLMs在代码生成之前进行明确的推理，从而促进更复杂解决方案的生成并提高整体性能和效率。此外，我们还发布了UTMath-Train训练数据集（超过70k样本），以支持社区进一步探索数学推理。我们的基准可以通过以下链接访问：
总结: 一种旨在通过广泛的单元测试和推理转编码思维方法评估大型语言模型数学推理能力的新基准UTMath。

###【arXiv编号】2411.07240v2
###【git】https://github.com/UTMathGroup/UTMath
###【期刊】
###【领域】计算语言学、人工智能、数学推理评估

[推荐指数：4]

UTMath基准提供了一个全面且具有挑战性的框架，能够有效评估大型语言模型的数学推理能力，并通过RCoT方法促进模型性能的提升，对学术界和工业界具有重要价值。

—第47篇----

=====

Leveraging Metamemory Mechanisms for Enhanced Data-Free Code Generation in LLMs

🔍 关键词: 计算机科学、人工智能

链接1

摘要: 使用大型语言模型（LLMs）进行自动化代码生成因其效率和适应性而受到关注。然而，现实世界的编码任务或基准测试（如HumanEval和StudentEval）常常缺乏专用的训练数据集，这对依赖参考示例的现有少样本提示方法构成挑战。受人类元记忆（metamemory）—一种涉及回忆和评估的认知过程的启发，我们提出了一个新颖的框架（即M²WF）来改进LLMs的一次性代码生成。这种方法使LLMs能够自主生成、评估并利用合成示例，以增强可靠性和性能。与之前的方法不同，它最小化了对精心策划数据的依赖，并灵活适应各种编码场景。我们的实验在编码基准测试中表现出显著提高，为数据缺乏的环境提供了一个可扩展且稳健的解决方案。代码和框架将公开在GitHub和HuggingFace上。
总结: 该研究提出了一种利用元记忆机制提升大型语言模型在无数据环境下代码生成性能的新框架。
###【arXiv编号】arXiv:2501.07892
###【git】将公开在GitHub和HuggingFace
###【期刊】未提供
###【领域】计算机科学、人工智能

[推荐指数：4]

通过自主生成和评估合成示例，该框架有效提升了大型语言模型在缺乏训练数据的环境下的代码生成能力，展现出较高的创新性和实用性。

—第48篇----

=====

文章名称

FLM-101B: 一个开源大型语言模型及其如何在10万美元预算下进行训练

🔍 关键词: 大型语言模型, 渐进式训练, 绿色AI, 成本优化

PDF链接

摘要: 大型语言模型（LLMs）被认为是实现基础机器智能的重要方法，在自然语言处理和多模态任务等领域取得了显著的成功。然而，来自大规模预训练计算的碳足迹和财务成本是一个不可忽视的问题。受神经发生过程中神经结构生长的启发，渐进式训练方法显示出加快LLM预训练的潜力。然而，对于渐进式训练超过1000亿参数的LLMs，其算法、实施和实践尚未得到充分探索。在本文中，我们展示了我们的模型FLM-101B，采用我们的增长策略在10万美元预算下训练，仅使用基线模型浮点运算量的10%，即可达到基线性能的80%。我们认为，进一步研究渐进式训练将有助于社区降低成本并促进绿色AI的发展。FLM-101B的检查点已在 https://huggingface.co/CofeAI/FLM-101B 发布。
总结: 本研究提出一种在10万美元预算下，通过渐进式训练策略训练的FLM-101B模型，可用仅10%的计算成本达到基线模型80%的性能，推动了绿色AI的发展。
###【arXiv编号】2309.03852v3
###【领域】计算机科学-自然语言处理，人工智能，大规模模型训练，绿色AI

[推荐指数：4]

该研究通过引入渐进式训练策略显著降低了训练大型语言模型的成本和碳排放，具有较高的创新性和实用价值，有助于推动绿色AI的发展，但由于模型性能仍略低于基线，故推荐指数为4分。

—第49篇----

=====

Exploring Gradient Subspaces: Addressing and Overcoming LoRA’s Limitations in Federated Fine-Tuning of Large Language Models

🔍 关键词:

链接1

摘要: 大型语言模型（LLMs）在各个领域，尤其是在文本和视觉数据的任务泛化方面表现出显著的能力。虽然对这些模型进行微调可以显著提高其在特定下游任务上的性能，但这通常需要高质量的数据，因隐私问题无法共享。联邦学习（FL）为无需直接共享数据的协作训练提供了有希望的解决方案。然而，联邦学习中许多针对LLMs的参数高效微调策略，特别是基于低秩适配（LoRA）的策略，存在局限性。本文对利用LoRA的流行FL框架的收敛性和性能保证进行了批判性分析，强调由于低秩矩阵受限的子空间学习，LoRA的效果不佳。这一限制阻碍了LLMs在联邦环境中的有效微调。通过严格的分析和实证评估，我们证明了直接权重平均优于基于LoRA的策略，导致微调模型性能更优。我们的全面比较揭示了LoRA方法的低效，并强调了直接权重聚合的优势。我们将分析扩展到在本地训练步骤中使用的基于低秩梯度的优化器，如GaLore。我们的发现表明，GaLore结合直接权重聚合是一种更有效的方法，超越了联邦LoRA方法如FlexLoRA和FFA-LoRA，适用于文本和图像模态。尽管隐私在FL讨论中至关重要，但我们的关注点是评估联邦微调模型的性能结果，并从理论和实证角度评估各种FL框架。我们的研究结果主张在FL上下文中重新评估对LoRA的依赖，为更高效的训练方法开辟道路。

总结: 本文通过理论和实证分析指出，在联邦学习环境中，直接权重平均和GaLore优化器在大型语言模型的微调中优于传统的LoRA方法。

###【arXiv编号】: 2410.23111v6

###【git】:

###【期刊】:

###【领域】: 计算机科学、人工智能、联邦学习、大型语言模型

[推荐指数：4]

该研究深入分析了LoRA在联邦微调大型语言模型中的局限性，并通过实证评估证明了直接权重聚合和GaLore方法的优势，具有较高的创新性和实际应用价值。

—第50篇----

=====

What Makes Cryptic Crosswords Challenging for LLMs?

🔍 关键词: 大型语言模型, 隐秘式填字游戏, 自然语言处理, 人工智能

PDF链接

摘要: 隐秘式填字游戏是一种依赖常识和解谜者在不同层次上操纵语言能力的谜题，涉及各种文字游戏。先前的研究表明，即使是现代的自然语言处理模型，包括大型语言模型（LLMs），在解决此类谜题时也具有挑战性。然而，关于它们在此任务中表现不佳的原因的研究甚少或几乎没有。在本文中，我们为三种流行的大型语言模型：Gemma2、LLaMA3和ChatGPT建立了基准结果，显示它们在此任务上的性能仍显著低于人类。我们还调查了这些模型难以实现优异性能的原因。我们在GitHub上发布了我们的代码和引入的数据集。
总结: 本研究评估了主要大型语言模型在解决隐秘式填字游戏时的表现，发现其能力仍显不足，并探讨了潜在原因。

###【arXiv编号】
arXiv:2412.09012v2

###【git】
https://github.com/bodasadallah/decrypting-crosswords

###【期刊】
暂无

###【领域】
计算机科学（自然语言处理，人工智能）

[推荐指数：4]

=====

—第51篇----

=====

ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding

🔍 关键词:

链接1

摘要: 大型语言模型（LLMs）的检索增强生成（RAG）系统在知识密集型任务中展现出潜力，但在复杂的多步骤推理方面存在局限性。尽管近期的方法将RAG与思维链推理或使用过程奖励模型（PRMs）的测试时搜索相结合，但这些方法仍面临诸如解释缺乏、PRM训练数据存在偏差、PRM评分的早期步骤偏差以及推理潜力的训练后优化不足等挑战。为了解决这些问题，我们提出了通过可信过程奖励增强检索增强推理（ReARTeR）框架，该框架通过训练后和测试时扩展来提升RAG系统的推理能力。在测试时，ReARTeR通过过程奖励模型引入可信过程奖励，以实现准确的标量评分，并通过过程解释模型（PEM）生成自然语言解释，从而实现步骤细化。在训练后，它利用蒙特卡洛树搜索（Monte Carlo Tree Search）并结合可信过程奖励收集高质量的步骤级偏好数据，通过迭代偏好优化进行优化。ReARTeR解决了三个核心挑战：(1) PRM与PEM之间的不匹配，通过离策略偏好学习加以解决；(2) PRM训练数据中的偏差，通过平衡注释方法和对具有挑战性的样本进行更强的注释来减轻；(3) PRM中的早期步骤偏差，通过基于时差的前瞻搜索策略加以解决。在多步骤推理基准测试中的实验结果显示，ReARTeR显著提升了RAG系统的推理能力，凸显了其在增强RAG系统推理能力方面的潜力。
总结: ReARTeR框架通过引入可信过程奖励，有效提升了检索增强生成系统在复杂多步骤推理任务中的性能。

###【arXiv编号】arXiv:2501.07861v1
###【git】
###【期刊】
###【领域】计算机科学:计算语言学

[推荐指数：4]

=====

—第52篇----

=====

Hierarchical Repository-Level Code Summarization for Business Applications Using Local LLMs

🔍 关键词: 代码摘要, 层次化方法, 本地大语言模型, 业务应用

PDF链接

摘要: 在大规模软件开发中，理解复杂代码库的功能和意图对于有效的开发和维护至关重要。尽管代码摘要已被广泛研究，但现有方法主要关注较小的代码单元，如函数，并且在处理较大的代码工件（如文件和包）时存在困难。此外，当前的摘要模型往往强调低级实现细节，常常忽视对现实应用至关重要的领域和业务上下文。本文提出了一种针对业务应用的仓库级代码摘要的两步层次化方法。首先，使用语法分析识别较小的代码单元如函数和变量，并利用本地大语言模型进行摘要。这些摘要随后被聚合以生成更高级别的文件和包摘要。为了确保摘要基于业务上下文，我们设计了定制提示，捕捉基于业务应用的领域和问题上下文的代码工件的预期目的。我们在电信领域的业务支持系统（BSS）上评估了我们的方法，结果表明，基于语法分析的层次化摘要提高了覆盖率，而基于业务上下文的摘要增强了生成摘要的相关性。
总结: 该研究提出了一种结合语法分析和业务上下文的层次化代码摘要方法，显著提升了代码摘要的覆盖率和相关性。
###【arXiv编号】 arXiv:2501.07857v1
###【git】
###【期刊】
###【领域】计算机科学 - 软件工程, 人工智能

[推荐指数：4]

该论文通过两步层次化方法结合本地大语言模型和业务上下文，有效提升了代码摘要的覆盖和相关性，具有较高的创新性和实用性，适用于大规模业务应用的代码维护和理解。

—第53篇----

=====

Optimizing Language Models for Grammatical Acceptability: A Comparative Study of Fine-Tuning Techniques

🔍 关键词: cs.CL, cs.AI

链接1

摘要: 本研究探讨了针对语法可接受性任务使用CoLA数据集对开放预训练变换器（OPT-125M）进行微调（FT）。通过比较常规模型微调（VFT）、基于模式的微调（PBFT）以及参数高效微调技术（PEFT）如低秩适应（LoRA），我们展示了在保持高准确率的同时显著提高了计算效率。实验结果显示，虽然VFT实现了最高的准确率（81.2%），LoRA在减少内存使用和迭代时间超过50%的同时提升了PBFT的准确率。而上下文蒸馏（CD）尽管计算效率高，但准确率仅约31%。我们的发现通过减小计算障碍有助于普及大规模语言模型（LLM）的访问。

总结: 本研究通过多种微调技术的比较，显著提升了语言模型在语法可接受性任务中的效率和准确性，促进了大规模语言模型的普及应用。

###【arXiv编号】2501.07853v1

###【领域】计算机科学，人工智能，自然语言处理

[推荐指数：4]

=====

—第54篇----

=====

文章名称

🔍 关键词:

链接1

摘要: 大型语言模型（LLMs）在数学任务的排行榜上持续更新。然而，大多数评估仅关注最终结果，忽视了中间步骤的质量。这种忽视可能掩盖潜在的问题，如推理过程中的逻辑错误或不必要的步骤。为了衡量超越最终答案准确性的推理质量，我们引入了ReasonEval，这是一种评估推理步骤质量的新方法。ReasonEval使用有效性和冗余性来描述推理质量，并配备LLMs自动评估。我们探索了基于LLM的评估者的不同设计选项，并在元评估数据集中经验性地证明，当ReasonEval采用具有强大数学知识的基础模型并经过高质量标注数据训练时，始终优于基线方法。我们还强调了ReasonEval的强大泛化能力。通过利用ReasonEval评估专注于数学的LLM，我们发现最终答案准确性的提高并不一定保证在具有挑战性的数学问题中推理步骤的整体质量提升。此外，我们观察到ReasonEval在数据选择中可以发挥重要作用。我们开源了表现最佳的模型、元评估脚本和所有评估结果，以促进未来的研究。
总结: 引入ReasonEval方法评估大型语言模型的推理质量，超越最终答案的准确性。

###【arXiv编号】2404.05692v2
###【git】
###【期刊】
###【领域】计算机科学 — 自然语言处理，人工智能

[推荐指数：4]

该研究提出了创新的ReasonEval方法，通过评估推理步骤的有效性和冗余性，提升了对大型语言模型数学推理质量的评价，具有较高的创新性和实用性，对相关领域的研究具有重要推动作用。

—第55篇----

=====

AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset

🔍 关键词: 医学问答, 数据集, 泛非, 语言模型, 多专业

PDF链接

摘要: 最近，大型语言模型（LLM）在医学选择题基准测试上的性能提升，引起了全球医疗服务提供者和患者的兴趣。尤其是在面临急重的医生短缺和缺乏专业人士的低收入和中等收入国家（LMICs），LLM 提供了增强医疗服务可及性和降低成本的潜在可扩展途径。然而，它们在全球南方地区，特别是在非洲大陆的效果尚待确定。在本研究中，我们引入了 AfriMed-QA，这是首个大规模的泛非英语多专业医学问答（QA）数据集，包含15,000个问题（开放和封闭形式），来自16个国家的60多所医学院，涵盖32个医学专业。我们进一步在多个方面（包括正确性和人口偏差）评估了30个LLM。研究结果显示，不同专业和地理区域的性能存在显著差异，选择题性能明显落后于美国医学执照考试（USMLE）。我们发现，生物医学LLM的表现不如通用模型，而较小的边缘友好型LLM难以达到通过分数。有趣的是，与临床医生回答相比，人工评价显示消费者对LLM的回答和解释的一致偏好。
总结: 本研究开发了AfriMed-QA数据集，评估了多种大型语言模型在泛非医学问答中的表现，揭示了不同专业和地域间的显著差异及消费者对LLM解答的偏好。

###【arXiv编号】2411.15640v3
###【git】
###【期刊】
###【领域】自然语言处理, 医学信息学

[推荐指数：4]

=====

—第56篇----

=====

AdaSociety: An Adaptive Environment with Social Structures for Multi-Agent Decision-Making

🔍 关键词: 多智能体系统, 人工智能, 博弈论, 机器学习, 社会信息网络

PDF链接 | GitHub链接

摘要: 传统的交互环境通过固定任务限制了智能体的智能增长。近期，单智能体环境通过根据智能体的行为生成新任务来解决这一问题，增强了任务的多样性。我们考虑多智能体环境中的决策制定问题，其中任务进一步受到社会连接的影响，影响奖励和信息获取。然而，现有的多智能体环境缺乏适应性物理环境与社会连接的结合，阻碍了智能行为的学习。为了解决这一问题，我们引入了AdaSociety，一个可定制的多智能体环境，具有扩展的状态和动作空间，以及明确且可更改的社会结构。随着智能体的进展，环境会自适应地生成带有社会结构的新任务供智能体完成。在AdaSociety中，我们开发了三个展示不同社会结构和任务的小型游戏。初步结果表明，特定的社会结构可以促进个体和集体的利益，尽管当前的强化学习和基于大型语言模型的算法在利用社会结构提升性能方面效果有限。总体而言，AdaSociety作为一个有价值的研究平台，适用于在多样的物理和社会环境中探索智能。代码可在 GitHub 获取。
总结: AdaSociety提供了一个创新的多智能体环境，结合了自适应物理环境和社会结构，有助于探索多智能体系统中的智能行为。

###【arXiv编号】2411.03865v4
###【git】https://github.com/bigai-ai/AdaSociety
###【期刊】暂无
###【领域】计算机科学 - 多智能体系统, 人工智能, 博弈论, 机器学习, 社会信息网络

[推荐指数：4]

AdaSociety在多智能体决策制定中引入了创新的自适应社会结构，提供了丰富的研究平台，尽管现有算法在利用社会结构方面尚有提升空间，但其潜力和实用性值得高度推荐。

—第57篇----

=====

Unveiling Provider Bias in Large Language Models for Code Generation

🔍 关键词: 计算机科学，人工智能，代码生成

PDF链接

摘要: 大型语言模型（LLMs）已成为新的推荐引擎，在能力和范围上均超越了传统方法，特别是在代码生成应用中。我们的研究揭示了LLMs中的一种新型供应商偏见，即在没有明确输入提示的情况下，这些模型在推荐中对特定供应商的服务表现出系统性偏好（例如，偏向Google Cloud而非Microsoft Azure）。这种偏见对市场动态和社会平衡具有重大影响，可能促进数字垄断。它还可能欺骗用户并违反他们的期望，导致各种后果。本文提出了首个关于LLM代码生成中供应商偏见的全面实证研究。我们开发了一套包括自动化数据集生成管道的方法，涵盖6个不同的编码任务类别和30个真实世界的应用场景。我们的分析涵盖了七种最先进模型生成的超过60万条LLM响应，使用了大约5亿个令牌（相当于5000美元以上的计算成本）。该研究评估了生成的代码片段及其嵌入的服务供应商选择，以量化供应商偏见。此外，我们还对七种去偏见提示技术进行了比较分析，以评估它们在减轻这些偏见方面的有效性。我们的发现表明，LLMs表现出显著的供应商偏好，主要偏向Google和Amazon的服务，并且可以在没有用户请求的情况下自主修改输入代码以包含其偏好的供应商。值得注意的是，我们观察到在对话上下文中推荐的供应商与在生成的代码中实现的供应商之间存在差异。完整的数据集和分析结果可在我们的存储库中获得。
总结: 该研究揭示了大型语言模型在代码生成中存在显著的供应商偏见，偏向特定服务提供商，具有重要的市场和社会影响。
###【arXiv编号】: arXiv:2501.07849v1
###【git】: 无
###【期刊】: arXiv预印本
###【领域】: 计算机科学，人工智能，软件工程

[推荐指数：4]

该论文首次系统性研究了大型语言模型在代码生成中的供应商偏见，具有创新性和实用性，对理解和改进LLMs的公平性具有重要意义。

—第58篇----

=====

Nigerian Software Engineer or American Data Scientist? GitHub Profile Recruitment Bias in Large Language Models

🔍 关键词: cs.SE

链接1

摘要: 大型语言模型（LLMs）已风靡全球，展示了它们不仅能自动化繁琐任务，还能在完成软件工程任务方面显示出一定的熟练度。LLMs 的一个关键问题是其“黑盒”性质，这掩盖了它们的内部工作机制，可能导致其输出中存在社会偏见。在软件工程的背景下，作为一篇早期结果论文，我们通过实证研究探讨了 LLMs 在为地理上多样化的软件团队自动化招聘任务方面的表现。我们使用 OpenAI 的 ChatGPT 进行了一组初步实验，利用来自四个地区的 GitHub 用户资料招募一个六人软件开发团队，分析了2019年至2023年五年期间共3,657个资料。结果显示，即使在交换两个资料的位置字符串（反事实）时，ChatGPT 也表现出对某些地区的偏好。此外，ChatGPT 更有可能将某些开发者角色分配给特定国家的用户，揭示了其隐含的偏见。总体而言，这项研究揭示了 LLMs 内部工作的见解，并对缓解这些模型中的社会偏见具有重要意义。
总结: 研究发现大型语言模型在自动化软件团队招聘任务中存在地理和角色分配的隐性偏见，揭示了其“黑盒”特性对社会偏见的潜在影响。

###【arXiv编号】2409.12544v2
###【领域】计算机科学 - 软件工程

[推荐指数：4]

=====

—第59篇----

=====

Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs

🔍 关键词: 图推理，大型语言模型，隐式知识，逻辑推理，多跳问答

PDF链接

摘要: 大型语言模型（LLMs）在广泛任务中表现出显著的成功；然而，在需要理解和推断文本序列中不同信息片段之间关系的推理任务中，它们仍然面临挑战。这一挑战在涉及多步骤过程的任务中尤为突出，如逻辑推理和多跳问答，其中理解实体之间的隐式关系并利用给定上下文中的多跳连接至关重要。图作为基本数据结构，能明确表示实体之间的成对关系，因此有潜力增强LLMs的推理能力。外部图已经被证明在支持LLMs的多个任务中有效。然而，在许多推理任务中，并未提供预先存在的图结构。我们是否可以将从上下文中导出的隐式知识结构化为图，以协助LLMs进行推理？本文提出了利用图进行推理（RwG）的方法，首先从上下文中构建显式图，然后利用这些图来增强LLMs在推理任务中的性能。大量实验证明了该方法在提高逻辑推理和多跳问答任务中的有效性。
总结: 本文提出通过构建显式图结构来增强大型语言模型的推理能力，并在逻辑推理和多跳问答任务中展示了其有效性。
###【arXiv:2501.07845v1】
###【git】
###【期刊】
###【领域】计算机科学 – 计算机语言