
LLM-综述
文章平均质量分 94
LLM-综述
nopSled
一周一更
展开
-
A Survey on Social Simulation Driven by Large Language Model-based Agent翻译
社会科学研究人类行为和社会结构,以了解社会如何运作。传统的社会学研究严重依赖人类参与进行实验和收集数据。问卷调查和心理实验通常用于检验理论假设、理解社会现象并预测集体结果。虽然这些方法可以提供高度真实的数据,但它们成本高昂、难以规模化,并且存在一定的伦理风险。近年来,大语言模型 (LLM) 在人类级别的推理和规划方面展现出令人印象深刻的能力。它们能够感知环境、做出决策并采取相应的行动,展现出其作为自主智能体替代人类的潜力。翻译 2025-04-13 18:32:35 · 90 阅读 · 0 评论 -
Towards Lifelong Learning of Large Language Models: A Survey翻译
随着大语言模型 (LLM) 的应用扩展到各个领域,这些模型适应数据、任务和用户偏好的持续变化的能力变得至关重要。传统的训练方法依赖于静态数据集来训练 LLM,但越来越不足以应对现实世界信息的动态特性。终身学习(又称持续学习、增量学习),或 LLM 在其运行寿命内持续自适应学习的能力,通过整合新知识同时保留先前学习的信息来解决这一挑战,从而防止灾难性遗忘的问题。图 1 提供了终身学习的图示。本调查深入研究了终身学习的复杂情况,根据新知识的整合方式将策略分为两大类:内部知识和外部知识。翻译 2025-02-11 04:25:28 · 80 阅读 · 0 评论 -
Towards Scalable Automated Alignment of LLMs: A Survey翻译
1)目前尚不清楚分解问题是否是解决问题最困难的部分,如果认知负担无法分散,IDA 可能难以发挥作用。2)错误会不会累积。虽然这种范式不需要Agent之间的协作来提高效率,但太多错误仍然会带来问题。3)任务可以并行化的程度。如果任务解决过程在很大程度上是连续的,那么收集信号的时间可能会增加,但考虑到 LLM 的当前部署速度,这似乎是一个小问题。总体而言,由于这些假设很难证明或证伪,我们主张在这个方向上进行更多的实证研究。翻译 2024-11-06 03:58:26 · 80 阅读 · 0 评论 -
A Survey on LoRA of Large Language Models翻译
预训练语言模型参数规模的快速增加提高了其泛化能力并带来了涌现能力。在过去的几年中,预训练语言模型的参数规模增加了数千倍(例如,从330M参数的BERT到540B参数的PaLM)。这些具有大参数规模的预训练语言模型被称为大语言模型(LLM)。然而,由于LLM的知识边界,它们在某些下游任务上的能力仍然有限。为了扩展知识边界,仍然有必要在下游任务上对LLM进行微调。翻译 2024-07-28 20:10:57 · 228 阅读 · 0 评论 -
Topologies of Reasoning: Demystifying Chains, Trees, and Graphs of Thoughts翻译
大型语言模型 (LLM) 已成为现代机器学习 (ML) 的主要工具。源于简单的自然语言处理(NLP)任务,其广泛的潜力已迅速应用于其他领域,例如逻辑推理、规划、医学等。由于LLM的主要交流媒介是自然语言,提示工程已成为一个受到广泛关注和重视的新研究领域。首先,它使任何人都易于使用和尝试,从而实现了LLM和整个生成式人工智能领域的民主化。其次,它具有成本效益,不需要昂贵且耗时的微调或预训练。精心设计 LLM 问题以提高结果的准确性以及逻辑或代数查询等任务的成本效益具有挑战性。翻译 2024-03-04 04:53:47 · 333 阅读 · 0 评论 -
Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models翻译
大型语言模型(LLM)以其巨大的参数量为特征,已成为自然语言处理(NLP)和人工智能发展的有前途的基石。通过适当的对齐技术,例如监督微调(SFT)和来自人类反馈的强化学习(RLHF),最近的LLM在解决各种下游任务方面表现出了强大的能力。尽管如此,如图 1 所示,LLM尽管取得了显着的成功,但有时会产生看似合理的输出,但实际上偏离了用户输入、与先前生成的上下文相反或不符合事实知识的内容——这种现象通常被称为幻觉,这极大地破坏了LLM在现实场景中的可靠性。翻译 2023-10-21 05:07:17 · 505 阅读 · 1 评论 -
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback翻译
基于人类反馈的强化学习(RLHF)已成为一种重要的技术,可以将机器学习模型调整到难以定义的目标。特别是,RLHF是训练SOTA语言模型(LLM)的关键组成部分,例如OpenAI的GPT-4,Anthropic的Claude,Google的Bard和Meta的Llama 2-Chat。RLHF和类似的方法允许LLM建模其训练数据外的分布,并调整文本的分布,从而使模型输出受到人类评估者的高度评价。我们将结合了三个中间过程的方法称为RLHF:反馈收集,奖赏建模和策略优化。图1(top)说明了此设置。翻译 2023-08-09 15:27:10 · 493 阅读 · 0 评论 -
A Survey for In-context Learning翻译
随着模型和语料库大小的增加,大语言模型展示了从由少量样例构成的演示上下文中进行学习的能力(即in-context learning)。许多研究表明,LLM可以使用ICL执行一系列复杂的任务,例如解决数学推理问题。这种强大的能力已被作为大型语言模型的新兴能力进行了广泛验证。in-context learning的关键思想是从类比中学习。图1给出了一个示例,其描述了语言模型如何用ICL做出决策。首先,ICL需要一些样例来构建演示上下文。这些样例通常用自然语言模板编写。翻译 2023-01-30 17:28:00 · 967 阅读 · 0 评论 -
Augmented Language Models: a Survey翻译
这篇综述回顾了通过推理技巧和使用工具对语言模型(LM)的能力进行增强的工作。前者被定义为将潜在复杂的任务分解为更简单的子任务,而后者则定义为调用外部模块,例如代码解释器。LM可以分别利用这些增强技术,或通过启发式方法结合使用,或者从演示样例中学习这样做。尽管同样遵守标准的缺失字符预测目标,但这种增强的LM可以使用各种非参数的外部模块来扩展其上下文处理能力,从而脱离了纯语言建模范式。因此,我们将它们称为增强语言模型(ALM)。缺失字符预测目标使ALM能够学习推理、使用工具甚至行动,同时仍执行标准的自然语言任务翻译 2023-03-27 21:37:04 · 634 阅读 · 0 评论