
LLM 日更
文章平均质量分 66
每日追踪LLM最新论文进展,提供最简洁最准确的论文概述。本专栏的文章,只是提供一个简要版论文介绍,详细介绍请去LLM Chinese。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
RoCoIns: Enhancing Robustness of Large Language Models through Code-Style Instructions
大型语言模型(LLM)在遵循人类指令方面表现出了非凡的能力。然而,最近的研究对LLM在使用结合文本对抗性样本的指令提示时的稳健性提出了担忧。在本文中,从LLM对指令设计敏感的最新工作中获得灵感,我们使用代码风格的指令来取代典型的自然语言指令,这种指令更具结构性,不那么模糊。通过这种转换,我们为LLM提供了更精确的指令,并增强了LLM的稳健性。此外,在少小样本场景下,我们提出了一种新的方法,使用干净样本和对抗性样本来合成上下文演示(对抗性上下文方法),以进一步提高LLM的稳健性。原创 2024-04-27 21:45:41 · 213 阅读 · 0 评论 -
Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models
大型语言模型(LLM)在各种应用程序中表现出了非凡的能力,从根本上重塑了自然语言处理(NLP)研究的格局。然而,最近的评估框架通常依赖LLM的输出概率进行预测,这主要是由于计算限制,与现实世界的LLM使用场景不同。尽管这些基于概率的评估策略被广泛使用,但其有效性仍然是一个悬而未决的研究问题。本研究旨在在使用LLM进行多项选择题(MCQ)的背景下,仔细审查这种基于概率的评估方法的有效性,强调其固有的局限性。我们的实证研究表明,流行的基于概率的评估方法与基于生成的预测不完全一致。原创 2024-04-26 17:42:53 · 172 阅读 · 0 评论 -
GCOF: Self-iterative Text Generation for Copywriting Using Large Language Model
ChatGPT等大型语言模型(LLM)大大简化了营销副本的生成,但生成满足特定领域要求的内容(如有效吸引客户)仍然是一个重大挑战。在这项工作中,我们介绍了遗传拷贝优化框架(GCOF),旨在提高营销拷贝创建的效率和参与度。我们在LLM的提示下进行显式特征工程。此外,我们修改了遗传算法中的交叉算子,将其集成到GCOF中,以实现自动特征工程。这种集成有助于营销副本的自迭代精化。与人工策划的副本相比,在线结果表明,我们的框架制作的副本的点击率平均提高了50%以上。原创 2024-04-26 15:57:56 · 194 阅读 · 0 评论 -
Knowledge Graph Enhanced Large Language Model Editing
大型语言模型(LLM)是推进自然语言处理(NLP)任务的关键,但其功效受到不准确和过时知识的阻碍。模型编辑是解决这些挑战的一个很有前途的解决方案。然而,现有的编辑方法难以跟踪和整合与编辑相关的知识变化,这限制了编辑后LLM在处理编辑知识时的泛化能力。为了解决这些问题,我们提出了一种新的模型编辑方法,即GLAME,该方法利用知识图谱来增强LLM编辑。具体来说,我们首先利用知识图谱增强模块来揭示由于编辑而发生变化的相关知识,从而获得其在LLM中的内部表示。这种方法允许LLM内的知识变化通过外部图结构反映出来。原创 2024-04-26 14:24:55 · 305 阅读 · 0 评论 -
OMGEVAL:An Open Multilingual Generative Evaluation Benchmark for Large Language Models
现代大型语言模型(LLM)通常应使来自世界各地不同文化背景的个人受益。然而,最新的LLM高级生成性评估基准主要集中在英语上。为此,我们介绍了OMGEval,这是第一个开源多语言生成测试集,可以评估LLM在不同语言中的能力。对于每种语言,OMGEval提供了804个开放式问题,涵盖了LLM的广泛重要功能,如一般知识、逻辑推理等。每个问题都经过人工注释器的严格验证。值得注意的是,为了充分反映LLM在不同文化背景下的兼容性,我们对每种非英语语言进行了本地化。原创 2024-04-26 13:58:18 · 137 阅读 · 0 评论 -
Large Language Models for Data Annotation: A Survey
数据注释是用相关信息对原始数据进行标记或标签,对提高机器学习模型的功效至关重要。然而,这一过程既费力又昂贵。以GPT-4为例的高级大型语言模型(LLM)的出现,为彻底改变和自动化复杂的数据注释过程提供了前所未有的机会。虽然现有的调查广泛涵盖了LLM体系结构、训练和一般应用程序,但本文独特地关注了它们在数据注释中的特定用途。这项调查有助于三个核心方面:基于LLM的数据注释、评估LLM生成的注释和使用LLM生成注释进行学习。原创 2024-04-26 13:44:28 · 414 阅读 · 0 评论 -
A Survey on Knowledge Distillation of Large Language Models
在大型语言模型(LLM)时代,知识蒸馏(KD)成为将先进功能从领先的专有LLM(如GPT-4)转移到LLaMA和Mistral等开源同行的关键方法。此外,随着开源LLM的蓬勃发展,KD在压缩这些模型和通过聘请自己作为教师促进他们的自我改进方面发挥着至关重要的作用。本文对KD在LLM领域中的作用进行了全面的调查,强调了它在向小型模型传授先进知识方面的关键作用,以及它在模型压缩和自我改进中的实用性。原创 2024-04-25 10:24:27 · 370 阅读 · 0 评论 -
CAMELOT: Towards Large Language Models with Training-Free Consolidated Associative Memory
本文是LLM系列文章,针对《CAMELOT: Towards Large Language Models with Training-Free Consolidated Associative Memory》的翻译。CAMELOT:面向具有训练自由整合联想记忆的大型语言模型摘要1 引言2 相关工作3 关联内存(AM)启用的LLM4 实验5 讨论6 讨论摘要由于高内存和运行时成本,大型语言模型(LLM)难以处理长输入序列。内存增强模型已成为解决这一问题的一个很有前途的解决方案,但当前的方法受到内存容量有原创 2024-04-25 10:07:55 · 105 阅读 · 0 评论 -
Can Large Language Models be Good Emotional Supporter?
情绪支持会话(ESC)是一项旨在通过日常会话缓解个人情绪困扰的任务。鉴于其固有的复杂性和非直观性,ESConv数据集结合了支持策略,以促进生成适当的响应。最近,尽管大型语言模型(LLM)具有非凡的会话能力,但先前的研究表明,它们往往难以提供有用的情感支持。因此,这项工作最初分析了LLM在ESConv上的结果,揭示了在选择正确策略方面的挑战以及对特定策略的显著偏好。原创 2024-04-25 10:00:12 · 173 阅读 · 0 评论 -
Stable Knowledge Editing in Large Language Models
大型语言模型的有效知识编辑对于大规模替换过时信息或整合专业知识至关重要。然而,以前的方法隐含地假设知识在模型中是本地化和孤立的,这一假设过于简化了模型知识的相互关联性。本地化的前提导致知识编辑不完整,而孤立的假设可能会损害其他知识和一般能力。它给知识编辑方法的性能带来了不稳定性。为了超越这些假设,我们引入了StableKE,这是一种基于知识扩充而非知识本地化的新颖方法。为了克服人为标注的成本,StableKE集成了两种自动知识增强策略:语义短语增强策略,它使知识描述多样化,以便于向模型教授新信息;原创 2024-04-25 09:41:10 · 214 阅读 · 0 评论 -
MoELoRA: Contrastive Learning Guided Mixture of Experts on Parameter-Efficient Fine-Tuning for LLMs
为了增强大型语言模型(LLM)对下游任务的适应性,通常需要进行微调。尽管如此,更新数十亿个参数的过程需要大量的计算资源和训练时间,这对大规模模型在各种场景中的广泛应用构成了重大障碍。为了解决这个问题,参数有效微调(PEFT)已成为最近研究的一个突出范式。然而,当前采用有限全局参数集的PEFT方法(如LoRA,它将低秩近似矩阵添加到所有权重)在灵活组合下游任务中的不同计算模块方面面临挑战。在这项工作中,我们介绍了一种新的PEFT方法:MoELoRA。原创 2024-04-25 09:33:56 · 455 阅读 · 0 评论 -
Are Large Language Models Rational Investors?
大型语言模型(LLM)正逐渐被用于财务分析,以利用其广泛的知识库来解释复杂的市场数据和趋势。然而,它们在金融领域的应用受到内在偏见(即风险偏好偏见)和对市场复杂性的肤浅理解的挑战,这突出了对其金融洞察力进行彻底评估的必要性。这项研究引入了一个新的框架,即财务偏见指标(FBI),以批判性地评估LLM的财务合理性,重点是它们辨别和驾驭财务信息微妙之处的能力,以及识别任何可能扭曲市场分析的非理性偏见的能力。我们的研究采用了一种创新的方法来衡量财务合理性,结合行为金融学的原理来审视LLM的偏见和决策模式。原创 2024-04-24 11:08:43 · 108 阅读 · 0 评论 -
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation
尽管大型语言模型(LLM)已经在多语言语料库上进行了预训练,但与少数资源丰富的语言相比,它们在大多数语言中的性能仍然落后。缓解这一问题的一种常见方法是将训练数据从资源丰富的语言翻译成其他语言,然后继续训练。然而,使用仅依赖翻译而忽略LLM跨语言的原始能力的数据并不总是有效的,我们表明这将限制跨语言知识转移的性能。在这项工作中,我们提出了SDRRL,这是一种基于资源丰富语言的自蒸馏的方法,通过利用LLM在资源丰富语言上的内部能力,有效地提高了多语言性能。原创 2024-04-24 10:42:35 · 208 阅读 · 0 评论 -
Identifying Factual Inconsistency in Summaries Towards Effective Utilization of Large Language Model
摘要1 引言2 相关工作3 方法:LLM零样本4 方法:蒸馏高效记分器5 结论局限性事实上的不一致性对抽象摘要的商业部署构成了重大障碍。在这个大语言模型(LLM)时代,这项工作围绕着两个重要问题展开:利用LLM进行事实不一致检测的最佳方式是什么?以及我们如何提取出一个既高效又有效的较小LLM?首先在五个不同的数据集上提出并评估了三种零样本范式:对整个摘要或每个摘要窗口的直接推理;实验表明,LLM本身能够在适当的范式设计下自由训练地解决这一任务,平均超过强训练基线2.8%。原创 2024-04-24 10:34:01 · 74 阅读 · 0 评论 -
Compression Represents Intelligence Linearly
有一种观点认为,学会压缩会产生智慧。最近,语言建模已被证明相当于压缩,这为大型语言模型(LLM)的成功提供了一个令人信服的理由:更先进的语言模型的开发本质上是在增强压缩,从而促进智能。尽管有如此吸引人的讨论,但关于压缩和智能之间的相互作用,几乎没有实证证据。在这项工作中,我们在LLM的背景下研究了它们的关系,将LLM视为数据压缩器。考虑到“智能”的抽象概念,我们采用平均下游基准分数作为替代,专门针对与知识和常识、编码和数学推理相关的智能。在12个基准中,我们的研究汇集了来自不同组织的30个公共LLM。原创 2024-04-24 10:00:53 · 329 阅读 · 0 评论 -
MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
Transformers的二次复杂性和弱长度外推限制了它们扩展到长序列的能力,尽管存在线性注意力和状态空间模型等次二次解,但它们在预训练效率和下游任务准确性方面的经验表现不如Transformers。我们介绍了MEGALODON,一种用于无限上下文长度的高效序列建模的神经架构。MEGALODON继承了MEGA(带门控注意力的指数移动平均)的架构,并进一步引入了多个技术组件来提高其性能和稳定性,包括复指数移动平均(CEMA)、时步归一化层、归一化注意力机制和带两跳残差配置的预范数。原创 2024-04-24 09:36:20 · 335 阅读 · 0 评论 -
Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive
随着指令调优大型语言模型(LLM)的发展,提高LLM的安全性变得更加重要。然而,当前将LLM输出与预期安全性相一致的方法通常需要大量的训练工作,例如高质量的安全数据和昂贵的计算资源,这是昂贵且低效的。为此,我们提出了反向prOmpt contrasstive dEcoding(ROSE),这是一种简单而有效的方法,可以在没有任何额外训练的情况下直接提高现有指令调整LLM的安全性。ROSE的原理是通过抑制由精心设计的反向提示引起的不希望的输出来提高期望的安全输出的概率。原创 2024-04-23 19:35:41 · 126 阅读 · 0 评论 -
Learn Your Reference Model for Real Good Alignment
对齐问题的复杂性源于现有方法不稳定的事实。研究人员不断发明各种技巧来解决这一缺点。例如,在语言模型对齐的基本强化学习(RLHF)技术中,除了奖励最大化之外,还最小化了可训练策略和SFT策略之间的Kullback-Leibler分歧。这一添加防止了模型过度拟合到奖励模型(RM),并生成RM域外的文本。直接偏好优化(DPO)方法重新制定了RLHF的优化任务,并消除了奖励模型,同时默认保持了策略接近SFT策略的要求。在我们的论文中,我们认为DPO方法中的这种隐含限制会导致次优结果。原创 2024-04-23 19:20:15 · 115 阅读 · 0 评论 -
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource
尽管大型语言模型(LLM)已经在多语言语料库上进行了预训练,但与少数资源丰富的语言相比,它们在大多数语言中的性能仍然落后。缓解这一问题的一种常见方法是将训练数据从资源丰富的语言翻译成其他语言,然后继续训练。然而,使用仅依赖翻译而忽略LLM跨语言的原始能力的数据并不总是有效的,我们表明这将限制跨语言知识转移的性能。在这项工作中,我们提出了SDRRL,这是一种基于资源丰富语言的自蒸馏的方法,通过利用LLM在资源丰富语言上的内部能力,有效地提高了多语言性能。原创 2024-04-23 17:01:44 · 141 阅读 · 0 评论 -
Direct Large Language Model Alignment Through Self-Rewarding Contrastive Prompt Distillation
在没有人工注释偏好数据的情况下,使大型语言模型与人类期望相一致是一个重要问题。在本文中,我们提出了一种通过使用对比提示对下的响应对的输出概率来评估响应偏好的方法,与RLAIF相比,该方法可以在LLaMA2-7B和LLaMA2-13B上获得更好的性能。基于此,我们提出了一种自动对齐方法,即直接大模型对齐(DLMA)。首先,我们使用对比提示对来自动生成偏好数据。然后,我们继续使用对比提示对来评估生成的偏好数据,并计算自我奖励分数。最后,我们使用DPO算法通过结合这种自我奖励分数来有效地对齐LLM。原创 2024-04-23 15:47:09 · 168 阅读 · 0 评论 -
Instructing Large Language Model in Multi-Step Reasoning by Exploring Graph Structure of the Text
尽管大型语言模型(LLM)擅长处理简单的推理任务,但由于一系列因素,当面临更复杂的多步骤推理时,它们经常会遇到困难。首先,自然语言通常包含实体之间的复杂关系,这使得在更长的时间内保持清晰的推理链具有挑战性。其次,丰富的语言多样性意味着相同的实体和关系可以使用不同的术语和结构来表达,这使识别和建立多条信息之间的联系的任务变得复杂。图提供了一种有效的解决方案来表示富含关系信息的数据,并捕获实体之间的长期依赖关系。原创 2024-04-23 14:31:10 · 113 阅读 · 0 评论 -
Learning From Failure Integrating Negative Examples when Fine-tuning Large Language Models as Agents
大型语言模型(LLM)在充当代理方面取得了成功,代理通过搜索引擎等工具与环境交互。然而,LLM是为语言生成而优化的,而不是在训练或调整过程中使用工具,这限制了它们作为代理的有效性。为了解决这个问题,之前的工作首先收集了LLM和环境之间的交互轨迹,只使用成功完成任务的轨迹来微调较小的模型,这使得微调数据稀缺,获取数据既困难又昂贵。丢弃失败的轨迹也会导致数据和资源的显著浪费,并限制微调过程中可能的优化路径。在本文中,我们认为不成功的轨迹提供了有价值的见解,LLM可以通过适当的质量控制和微调策略从这些轨迹中学习。原创 2024-04-23 11:19:06 · 141 阅读 · 0 评论 -
Head-wise Shareable Attention for Large Language Models
大型语言模型(LLM)具有大量的参数,这限制了它们在边缘设备上的部署。权重共享是一种很有前途的解决方案,它鼓励权重重用,有效地减少内存使用,同时减少性能下降。然而,当前的权重共享技术主要关注像BERT这样的小规模模型,并使用粗粒度的共享规则,例如逐层共享。考虑到LLM的普遍性和共享整个层或块明显削弱了权重共享的灵活性,这就变得有限了。在本文中,我们对大型语言模型的头部可共享注意力提出了一个观点。我们进一步提出了两种高效记忆的方法,它们在注意力头之间共享参数,特别关注LLM。原创 2024-04-23 11:11:31 · 105 阅读 · 0 评论 -
Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models
最近的工作展示了大型语言模型在回忆知识和推理方面的强大能力。然而,LLM通过多跳事实将这两种能力结合到推理中的可靠性尚未得到广泛探索。本文系统地研究了LLM利用基于多跳知识的初始实体和终端实体之间的直接连接的快捷方式的可能性。我们首先通过知识神经元来探索事实捷径的存在,揭示:(i)事实捷径的强度与预训练语料库中初始和最终实体的共现频率高度相关;(ii)与思维链提示相比,小样本提示在回答多跳问题时利用了更多的捷径。然后,我们从多跳知识编辑的角度分析了事实捷径带来的风险。原创 2024-04-23 10:51:32 · 400 阅读 · 0 评论 -
Distilling Large Language Models for Text-Attributed Graph Learning
文本属性图(TAG)是连接的文本文档的图。图模型可以有效地学习标签,但它们的训练在很大程度上依赖于人工注释标签,而在许多应用程序中,人工注释标签很少甚至不可用。大型语言模型(LLM)最近在小样本和零样本TAG学习方面表现出了显著的能力,但它们存在可扩展性、成本和隐私问题。因此,在这项工作中,我们专注于通过在TAG学习中提取LLM到局部图模型的能力,将LLM和图模型与其互补的优势协同起来。原创 2024-04-22 19:12:04 · 243 阅读 · 0 评论 -
EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal LLMs
在过去的几年里,多模态大型语言模型(MLLMs)引起了越来越多的关注,但它们仍然可能生成包括相应图像中不存在的对象的描述,这种现象被称为对象幻觉。为了消除幻觉,现有的方法手动注释有幻觉和没有幻觉的配对响应,然后使用各种对齐算法来提高图像和文本之间的对齐能力。然而,它们不仅在微调阶段需要大量的计算资源,而且还需要昂贵的人工注释来构建对齐算法所需的配对数据。为了解决这些问题,我们借用了遗忘的思想,提出了一种高效的细粒度遗忘框架(EFUF),它可以消除幻觉,而不需要配对数据。原创 2024-04-22 10:25:18 · 518 阅读 · 0 评论 -
LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative Tasks
LoRA采用轻量级模块为每个下游任务或领域定制大型语言模型(LLM),其中不同的学习附加模块代表不同的技能。将现有的LoRA组合起来处理新任务可以增强学习的LoRA的可重用性,特别有利于注释数据有限的任务。大多数先前关于LoRA组合的工作主要依赖于每个涉及的LoRA的任务级权重,使得不同的示例和token共享相同的LoRA权重。然而,在生成任务中,不同的token可能需要不同的管理技能。以语文数学任务为例,理解问题描述可能更多地依赖于语文LoRA,而计算部分可能更多地取决于数学LoRA。原创 2024-04-22 10:06:49 · 307 阅读 · 0 评论 -
EventRL: Enhancing Event Extraction with Outcome Supervision for Large Language Models
在这项研究中,我们提出了EventRL,这是一种为增强大型语言模型(LLM)的事件提取而开发的强化学习方法。EventRL利用具有特定奖励功能的结果监督来解决LLM中普遍存在的挑战,如指令跟随和幻觉,表现为事件结构的不匹配和未定义事件类型的生成。我们针对各种LLM(包括GPT-4、LLaMa和CodeLLaMa模型)中的FewShot提示(FSP)(基于GPT4)和监督微调(SFT)等现有方法来评估EventRL。原创 2024-04-22 09:54:23 · 309 阅读 · 0 评论 -
LoRETTA: Low-Rank Economic Tensor-Train Adaptation for Ultra-Low-Parameter Fine-Tuning of LLMs
已经提出了各种参数有效微调(PEFT)技术,以实现计算有效的微调,同时保持模型性能。然而,随着大型语言模型(LLM)的快速部署,现有的PEFT方法仍然受到越来越多的可训练参数的限制。为了应对这一挑战,我们提出了LoRETTA,这是一种超参数高效的框架,通过张量序列分解显著减少了可训练参数。具体来说,我们提出了两种方法,分别命名为LoRETTAadp和LoRETTArep。前者采用tensorized适配器,为LLM的微调提供了一种高性能但轻量级的方法。后者强调通过使用一组小张量因子的权重参数化进行微调。原创 2024-04-22 09:27:26 · 262 阅读 · 0 评论 -
Federated Fine-tuning of Large Language Models under Heterogeneous Language Tasks and Client
联合学习(FL)最近被应用于大型语言模型(LLM)的参数有效微调。尽管前景广阔,但由于客户端的异构资源和数据分布,它带来了重大挑战。本研究引入了FlexLoRA,这是一种简单而有效的LLM微调聚合方案,通过将资源充足的客户与资源最少的参与者的能力联系起来,缓解了传统FL中的“桶效应”,即限制了他们的潜力。FlexLoRA允许动态调整当地的LoRA等级,促进开发一个充满更广泛、更少特定任务知识的全球模型。原创 2024-04-21 21:00:49 · 228 阅读 · 0 评论 -
Chain-of-Instructions: Compositional Instruction Tuning on Large Language Models
使用大量不同指令的集合对大型语言模型(LLM)进行微调,提高了模型对不同任务的泛化能力,即使是对看不见的任务也是如此。然而,大多数现有的指令数据集只包括单个指令,并且它们很难遵循由多个子任务组成的复杂指令。在这项工作中,我们提出了一个新的组合指令概念,称为指令链(CoI),其中一条指令的输出像链一样成为下一条的输入。与解决单个指令任务的传统实践不同,我们提出的方法鼓励模型逐步解决每个子任务,直到得到最终答案。CoI调整(即,使用CoI指令进行微调)提高了模型处理由多个子任务组成的指令的能力。原创 2024-04-21 20:53:10 · 127 阅读 · 0 评论 -
Advancing Retrieval-Augmented Large Language Models via Query Generation Blending
检索增强的大型语言模型(LLM)在提高知识密集型场景的性能方面提供了巨大的好处。然而,这些方法经常面临复杂输入的挑战,并且由于噪声知识检索而遇到困难,特别是阻碍了模型的有效性。为了解决这个问题,我们引入了BlendFilter,这是一种通过将查询生成混合与知识过滤相结合来提升检索增强LLM的新方法。BlendFilter通过其查询生成方法提出了混合过程,该方法将外部和内部知识增加与原始查询相结合,确保全面的信息收集。此外,我们独特的知识过滤模块利用了LLM的内在功能,有效地消除了无关数据。原创 2024-04-20 21:45:44 · 196 阅读 · 0 评论 -
BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval Augmented Long-Context LLM
检索增强是处理长上下文语言建模的一种很有前途的方法。然而,现有的检索方法通常使用分块上下文,这容易导致语义表示质量较差和有用信息检索不完整。在这项工作中,我们提出了一种新的方法来增强长上下文语言建模的检索,称为地标嵌入。我们的方法有三个技术贡献。首先,我们引入了一种无分块的架构,它保持长上下文的连贯性,从而可以为上下文中的细粒度单元生成高质量的嵌入。其次,我们提出了一个位置感知的目标函数,它优先考虑连续信息跨度的最终边界。通过学习区分这样一个特殊的位置,可以为查询全面检索有用的信息。原创 2024-04-20 21:35:06 · 253 阅读 · 0 评论 -
LaCo: Large Language Model Pruning via Layer Collapse
基于transformer的大型语言模型(LLM)呈现出显著的规模扩展趋势,这给模型训练和推理带来了相当大的成本。然而,现有的方法,如模型量化、知识蒸馏和模型修剪,受到各种问题的约束,包括硬件支持的限制、对广泛训练的需要以及对模型内部结构的更改。在本文中,我们提出了一种简洁的逐层修剪方法,称为层折叠(LaCo),其中后部模型层折叠成前一层,从而能够在保持模型结构的同时快速减小模型大小。综合实验表明,在25-30%的修剪率下,我们的方法保持了80%以上的平均任务性能,显著优于现有的最先进的结构化修剪方法。原创 2024-04-19 16:22:02 · 211 阅读 · 0 评论 -
Benchmarking Knowledge Boundary for Large Language Model A Different Perspective on Model Evaluation
近年来,大型语言模型的开发取得了长足的进步,在各种任务中都取得了显著的性能。为了评估语言模型的知识能力,先前的研究已经提出了许多基于问答对的基准。我们认为,用固定的问题或有限的转述作为查询来评估语言模型是不可靠和不全面的,因为语言模型对提示很敏感。因此,我们引入了一个新的概念,称为知识边界,在语言模型中包含提示不可知知识和提示敏感知识。知识边界避免了语言模型评估中的提示敏感性,使其更加可靠和稳健。原创 2024-04-19 16:10:25 · 168 阅读 · 0 评论 -
Towards Safer Large Language Models through Machine Unlearning
大型语言模型(LLM)的快速发展已经证明了其在各个领域的巨大潜力,这归功于其广泛的预训练知识和非凡的可推广性。然而,当遇到有问题的提示时,LLM在生成有害内容方面经常遇到挑战。为了解决这个问题,现有的工作试图实现一种基于梯度上升的方法,以防止LLM产生有害的输出。虽然这些方法可能是有效的,但它们经常影响模型效用对正常提示的响应。为了解决这一差距,我们引入了选择性知识否定学习(SKU),这是一种新的LLM遗忘框架,旨在消除有害知识,同时在正常提示下保持效用。原创 2024-04-19 15:13:19 · 129 阅读 · 0 评论 -
Enhancing the Emotional Intelligence of LLMs without Compromising the General Intelligence
情绪智能(EI)由情绪感知、情绪认知和情绪表达组成,在改善当前基于大语言模型(LLM)的会话式通用人工智能助手的用户交互体验方面发挥着关键作用。以往的工作主要集中在通过对EI-相关分类或回归任务的朴素微调来提高他们的情绪感知能力。然而,这导致了EI的不完全增强和一般智力的灾难性遗忘。为此,我们首先介绍了EIBENCH,这是一个大规模的文本到文本形成中与EI相关的任务集合,包含任务指令,涵盖了EI的所有三个方面,为LLM的全面EI增强奠定了坚实的基础。原创 2024-04-19 14:56:43 · 161 阅读 · 0 评论 -
Chain of Logic: Rule-Based Reasoning with Large Language Models
基于规则的推理是法律推理的一种基本类型,它使我们能够通过将规则准确地应用于一组事实来得出结论。我们探索因果语言模型作为基于规则的推理器,特别是关于组成规则——由多个元素组成的规则,这些元素形成了复杂的逻辑表达式。关于组成规则的推理是具有挑战性的,因为它需要多个推理步骤,并注意元素之间的逻辑关系。我们介绍了一种新的提示方法——逻辑链,它通过分解(将元素作为独立的逻辑线程来求解)和重组(将这些子答案重新组合以求解底层逻辑表达式)来引发基于规则的推理。原创 2024-04-19 14:35:51 · 168 阅读 · 0 评论 -
Large Language Models as Zero-shot Dialogue State Tracker through Function Calling
大型语言模型由于其在一般上下文中的高级理解和生成能力,在会话系统中越来越普遍。然而,它们在面向任务的对话(TOD)中的有效性仍然不太令人满意,该对话不仅需要生成响应,还需要在特定任务和领域内进行有效的对话状态跟踪(DST)。在这项工作中,我们提出了一种新的方法FNCTOD,通过函数调用来解决具有LLM的DST。该方法改进了零样本DST,允许在无需大量数据收集或模型调整的情况下适应不同的领域。原创 2024-04-19 14:11:51 · 181 阅读 · 0 评论 -
Efficient LLM Personalization for Response Prediction with Collaborative Data Refinement
对与大型语言模型(LLM)的个性化交互的日益增长的需求要求开发能够准确有效地识别用户意见和偏好的方法。检索增强是一种有效的策略,因为它可以容纳大量用户,而无需微调成本。然而,现有的研究主要集中在增强检索阶段,并对优化数据库的表示进行了有限的探索,这是个性化等任务的一个关键方面。在这项工作中,我们从一个新的角度来研究这个问题,重点是如何在LLM定制的背景下更好地表示数据,以实现更高效的检索。原创 2024-04-19 13:44:32 · 83 阅读 · 0 评论