
LLM-Agent
文章平均质量分 93
LLM-控制
nopSled
一周一更
展开
-
Chain-of-Retrieval Augmented Generation翻译
检索增强生成 (RAG) 是企业应用中的核心技术之一,需要将大型基础模型与专有数据源集成,以生成既有根据又符合事实的响应。传统上,基础模型是在包含数万亿个 token 的大规模数据集上进行训练的,并且在部署后保持冻结状态。尽管如此,这些模型经常难以记住长尾事实知识,或者可能产生虚假声明的幻觉,导致在现实场景中响应不可靠。RAG 通过使用检索到的信息增强生成过程来缓解这一挑战,从而提高模型生成内容的可信度并促进最新信息的整合。翻译 2025-02-06 03:54:06 · 219 阅读 · 0 评论 -
WebWalker: Benchmarking LLMs in Web Traversal翻译
大语言模型 (LLM) 在广泛的自然语言处理任务中展现出了令人印象深刻的能力。虽然它们的知识库在训练后保持静态,但通过检索增强生成 (RAG) 集成外部搜索引擎允许 LLM 从网络上检索最新信息,从而增强其在动态、知识密集型场景中的实用性。然而,传统的在线搜索引擎(例如 Google 或 Bing)对 query 执行横向搜索,可能无法有效追踪网站中嵌入的更深层内容。与网页交互并深入挖掘可以有效解决此问题。之前与网页相关的研究侧重于解决基于动作的请求,例如 Mind2Web 和 WebArena;翻译 2025-02-02 17:46:44 · 99 阅读 · 0 评论 -
From Local to Global: A Graph RAG Approach to Query-Focused Summarization翻译
人类在各个领域的努力都依赖于我们阅读和推理大量文档的能力,我们经常得出超出源文本本身的结论(即思考和推理过程。翻译 2024-12-21 03:44:46 · 121 阅读 · 0 评论 -
Generative Agent Simulations of 1,000 People翻译
人类行为模拟(能够跨领域复制人类行为的通用计算代理)的前景广阔,可以广泛应用于政策制定和社会科学。我们提出了一种新的 Agent 架构,可以模拟 1,052 个真实个体的态度和行为——将大语言模型应用于有关他们生活的定性访谈,然后测量这些 Agent 如何很好地复制它们所代表的个体的态度和行为。生成式 Agent 复制参与者在综合社会调查中的回答的准确率是参与者两周后复制自己答案的 85%,并且在预测实验复制中的性格特征和结果方面表现相当。翻译 2024-12-17 04:21:38 · 100 阅读 · 0 评论 -
AUTO-RAG: AUTONOMOUS RETRIEVAL-AUGMENTED GENERATION FOR LARGE LANGUAGE MODELS翻译
大型语言模型 (LLM) 的检索增强生成 (RAG) 被广泛用于处理知识密集型任务,这大大提高了输出质量并有效缓解了幻觉。然而,某些限制仍然存在,例如检索内容中的噪音以及一次尝试检索复杂问题所需的足够知识的挑战。这些问题最终损害了 RAG 系统的整体性能并阻碍了其广泛采用。为了解决这些限制,人们提出了迭代检索,它不断更新检索结果以满足生成过程中出现的动态信息需求。现有的工作通常依赖于 few-shot 提示和手动制定的规则来实现迭代检索,这在推理过程中需要大量的人力和额外的计算开销。翻译 2024-12-10 04:14:38 · 142 阅读 · 0 评论 -
EfficientRAG: Efficient Retriever for Multi-Hop Question Answering翻译
检索增强生成 (RAG) 方法在解决多跳问题等复杂问题时会遇到困难。虽然迭代检索方法通过收集更多信息来提高性能,但当前方法通常依赖于对大型语言模型 (LLM) 的多次调用。在本文中,我们介绍了 EfficientRAG,这是一种用于多跳问答的高效检索器。EfficientRAG 迭代生成新query,无需在每次迭代时调用 LLM,并过滤掉不相关的信息。实验结果表明,EfficientRAG 在三个开放领域多跳问答数据集上超越了现有的 RAG 方法。翻译 2024-11-24 14:30:34 · 105 阅读 · 0 评论 -
Planning In Natural Language Improves LLM Search For Code Generation翻译
学习和搜索。尽管大型语言模型的最新进展消除了人们对学习有效性的所有怀疑,但搜索尚未证明其对大型语言模型的价值,尽管它在经典机器学习技术上取得了成功。在这里,我们将搜索称为在推理时花费额外计算量以提高整体性能的任何方法。在这项工作中,我们专注于改进 LLM 搜索以生成代码,这是 LLM 当前最重要的应用之一。我们假设,阻碍在推理时广泛使用代码搜索的主要瓶颈是模型输出缺乏高级多样性。这种缺乏多样性的部分原因可能是通常用于将 LLM 训练为聊天机器人的特定后训练目标,其中模型通常经过优化以产生单个正确答案。翻译 2024-10-05 21:03:13 · 231 阅读 · 0 评论 -
Text2SQL is Not Enough: Unifying AI and Databases with TAG翻译
语言模型有望通过让用户提出针对数据的自然语言问题来彻底改变数据管理,这导致了大量针对 Text2SQL 和检索增强生成 (RAG) 方法的研究。然而,根据我们的经验(包括来自 Databricks 的内部工作负载和客户的经验),用户的问题通常超出了这些框架的能力,因此需要对将数据库系统的逻辑推理能力与现代语言模型 (LM) 的自然语言推理能力相结合的系统进行新的研究投资。具体来说,我们发现实际业务用户的问题通常需要复杂的领域知识、世界知识、精确计算和语义推理组合。翻译 2024-09-29 04:32:03 · 254 阅读 · 0 评论 -
HybridRAG翻译
由于特定领域的术语和文档格式复杂等问题,即使使用当前最优方案(称为 VectorRAG 技术,利用向量数据库进行信息检索)来应用检索增强生成 (RAG),从基于财务应用产生的非结构化文本数据(例如收益电话会议记录)中提取和解释复杂信息对大型语言模型 (LLM) 也提出了巨大挑战。翻译 2024-09-03 03:48:54 · 379 阅读 · 0 评论 -
Executable Code Actions Elicit Better LLM Agents翻译
大语言模型 (LLM) Agent能够执行广泛的操作,例如调用工具和控制机器人,在应对现实世界的挑战方面表现出巨大的潜力。LLM Agent通常被提示以通过生成预定义格式的 JSON 或文本来执行操作,这通常受到受限的操作空间(例如,预定义工具的范围)和受限的灵活性(例如,无法组合多个工具)的限制。。与 Python 解释器集成后,CodeAct 可以执行代码操作并动态修改先前的操作或通过多轮交互根据新的观察发出新操作。翻译 2024-08-19 04:29:06 · 358 阅读 · 0 评论 -
OpenDevin: An Open Platform for AI Software Developers as Generalist Agents翻译
在大型语言模型 (LLM) 的支持下,面向用户的 AI 系统(例如 ChatGPT)越来越能够执行复杂的任务,例如准确响应用户问题、解决数学问题和生成代码。特别是,AI Agent(可以感知外部环境并对其采取行动的系统)最近受到了越来越多的研究关注。它们正朝着执行复杂任务的方向发展,例如开发软件、浏览现实世界的网站、做家务,甚至进行科学研究。随着人工智能Agent能够解决复杂问题,它们的开发和评估也变得具有挑战性。最近,人们在创建开源框架以促进Agent的开发方面做出了许多努力。翻译 2024-08-11 19:14:39 · 253 阅读 · 0 评论 -
SPREADSHEETLLM: Encoding Spreadsheets for Large Language Models翻译
电子表格的特点是其广泛的二维网格、灵活的布局和多样的格式选项,这对大型语言模型 (LLM) 提出了重大挑战。为了应对这一挑战,我们引入了,开创了一种高效的编码方法,旨在释放和优化 LLM 对电子表格的强大理解和推理能力。最初,我们提出了一种结合单元格地址、值和格式的原始序列化方法。然而,这种方法受到 LLM 的token约束的限制,使其不适用于大多数应用程序。为了应对这一挑战,我们开发了,这是一个创新的编码框架,可以有效地为 LLM 压缩电子表格。翻译 2024-07-25 04:40:01 · 514 阅读 · 0 评论 -
LLMFactor: Extracting Profitable Factors through Prompts for Explainable Stock Movement Prediction翻译
人工智能 (AI) 已成为金融领域的重要应用,可解决各种挑战,例如预测股票走势、提供机器人咨询服务和管理风险。在这些任务中,预测股票趋势尤为重要,因为它可以利用历史数据来制定交易策略并确定买入或卖出股票的机会。尤金·法玛提出的有效市场假说 (EMH) 认为,股票价格反映了所有可用信息,因此很难预测未来的价格走势。然而,后续研究发现了市场效率的局限性,强调了信息不对称和非理性行为等现象如何导致偏离完美效率。这些观察为研究人员通过识别和利用市场低效率来寻求超额市场回报铺平了道路。翻译 2024-07-11 04:22:15 · 533 阅读 · 0 评论 -
Mobile-Agent-v2翻译
移动设备操作任务正日益成为一种流行的多模态AI应用场景。目前的多模态大语言模型(MLLM)受限于训练数据,无法有效发挥操作助手的作用,而基于MLLM的Agent通过工具调用来增强能力,正逐渐应用于该场景。然而,——在现有工作的单Agent架构下难以有效解决。这是由于token序列过长以及文本图像数据格式交替限制了性能。为了有效解决这些导航挑战,我们提出了Mobile-Agent-v2,一种用于移动设备操作辅助的多Agent架构。该架构由三个Agent组成:规划Agent、决策Agent和反思Agent。翻译 2024-06-27 04:15:07 · 358 阅读 · 0 评论 -
Can Large Language Models Beat Wall Street? Unveiling the Potential of AI in Stock Selection翻译
资本市场是经济体内资本配置的有效渠道,其价格发现过程在维护金融体系的健康和稳定方面发挥着关键作用。价格发现过程取决于多种因素的复杂相互作用,包括公司和行业的具体因素、宏观经济数据、动量效应以及政治和地缘政治影响。市场参与者共同参与这一复杂的价格发现机制,从而确保金融市场的有效运作。选股本质上是一种价格发现机制,市场参与者通过该机制关注被认为“定价错误”的股票,从而提供相对于更广泛市场有吸引力的回报潜力。这一原则构成了价值投资的本质。翻译 2024-04-22 04:37:04 · 348 阅读 · 0 评论 -
Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow翻译
在数据驱动的世界中,金融、气象、能源等各个行业每天都会产生大量异构数据。这种范围广泛、形式多样的数据包含了重要的见解,可用于从预测金融趋势到监控能源消耗等众多应用。最近,大型语言模型(LLM)的进步,特别是 ChatGPT 和 GPT-4 的出现,彻底改变了人工智能研究,并为先进的人工智能系统铺平了道路。利用思维链提示、人类反馈强化学习 (RLHF) 和指令遵循学习,LLM在对话、推理和生成方面表现出了卓越的能力。然而,面对数据的巨大和复杂性,LLM面临着管理、处理和显示数据的巨大挑战。翻译 2024-04-18 05:03:23 · 253 阅读 · 0 评论 -
AUTOACT: Automatic Agent Learning from Scratch via Self-Planning翻译
语言agent利用大语言模型(LLM)强大的推理能力基于外部世界的观察来生成可执行动作,已成为旨在解决复杂交互任务的人工智能系统的重要组成部分。赋予LLM这种交互能力的过程被称为其中规划起着关键作用,它负责分解复杂的任务,调用外部工具,反思过去的错误,并聚合来自各种来源的信息以达到最终目标。有很多工作直接促使闭源现成的LLM制定特定任务的计划。尽管闭源LLM非常方便和灵活,但它不可避免地会遇到未解决的问题,因为它们的可访问性通常要付出高昂的代价,而且它们的黑盒性质使得结果复现变得困难。翻译 2024-04-04 04:40:55 · 286 阅读 · 0 评论 -
A Multimodal Foundation Agent for Financial Trading: Tool-Augmented, Diversified, and Generalist翻译
金融市场对于经济稳定、促进资本配置和风险管理至关重要。由技术分析策略开发的金融交易系统通过实现高效交易来增强这些市场。基于规则的交易系统是僵化的,难以适应市场波动,常常导致在不断变化的市场中表现不佳。基于强化学习的系统表现出增强的适应性,但遇到了巨大的障碍,例如需要大量的训练数据和决策过程的不可解释性。此外,他们很难在不同的市场条件下进行泛化,对市场噪音敏感,并且往往无法将新闻和报告等多模态市场情报整合到他们的分析中。翻译 2024-03-21 05:41:19 · 761 阅读 · 0 评论 -
TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS翻译
工具学习旨在释放大语言模型 (LLM) 的力量,以有效地与各种工具 (API) 交互以完成复杂的任务。通过将 LLM 与 API 集成,我们可以极大地扩展它们的效用,并使它们能够充当用户和庞大的应用程序生态系统之间的高效中介。尽管 LLaMA 等开源LLM已经通过指令微调实现了多种功能,但它们在执行更高级别任务方面仍然缺乏复杂性,例如与工具(API)适当交互以完成复杂的人类指令。这种缺陷是因为当前的指令微淘主要集中在基本语言任务上,而相对忽视了工具使用领域。翻译 2024-02-20 04:42:39 · 665 阅读 · 0 评论 -
THINK-ON-GRAPH: DEEP AND RESPONSIBLE REASONING OF LARGE LANGUAGE MODEL ON KNOWLEDGE GRAPH翻译
大型语言模型 (LLM) 在各种自然语言处理任务中表现出了卓越的性能。这些模型利用应用于大量文本语料库的预训练技术来生成连贯且上下文适当的响应。尽管LLM的表现令人印象深刻,但在面临需要复杂知识推理任务时,LLM仍存在很大的局限性。首先,LLM通常无法为超出了预训练阶段所包含的专业知识的问题(图1a中的过时知识)或需要长逻辑链和多跳知识推理的问题提供准确的答案。其次,LLM缺乏可信度、可解释性和透明度,引发了人们对幻觉或有毒文本风险的担忧。翻译 2023-12-05 04:18:48 · 877 阅读 · 0 评论 -
On Generative Agents in Recommendation翻译
推荐系统在当代信息传播中发挥着关键作用,其能够主动塑造个人偏好和认知过程。尽管传统的有监督推荐方法取得了巨大成功并被广泛采用,但它仍然存在不足,离线指标和在线性能之间的巨大差距就证明了这一点。这种脱节阻碍了将学术研究有效地整合到现实世界推荐的应用中,这成为了该领域未来发展的瓶颈。想象一下存在一个用于推荐系统的可配置模拟平台——该平台忠实地捕获用户意图并对人类认知机制进行编码。这样的模拟器无疑有可能彻底改变推荐领域的传统研究范式,为数据收集、推荐器评估和算法开发提供创新途径。翻译 2023-11-18 04:01:01 · 578 阅读 · 0 评论 -
MEMGPT: TOWARDS LLMS AS OPERATING SYSTEMS翻译
近年来,大型语言模型(LLM)及其底层transformer架构已成为对话式AI的基石,并导致了广泛的消费者和企业应用。尽管取得了这些进步,LLM使用有限的固定长度上下文窗口极大地阻碍了它们对长对话或长文档推理的适用性。例如,最广泛使用的开源LLM在超过其最大输入长度之前只能支持几十条来回消息或推理短文档。由于 Transformer 架构的自注意力机制,简单地扩展 Transformer 的上下文长度会导致计算时间和内存成本的成倍增加,这使得新的长上下文架构的设计成为紧迫的研究挑战。翻译 2023-11-02 20:22:18 · 369 阅读 · 0 评论 -
WALKING DOWN THE MEMORY MAZE: BEYOND CONTEXT LIMIT THROUGH INTERACTIVE READING翻译
由于模型大小的增加、预训练数据的扩展以及具有自注意力机制的 Transformer 架构的调整,大型语言模型 (LLM) 取得了显着的进步。随着LLM能力的发展,用户越来越多地寻求在推理过程中使用更长的输入序列。这导致查询长文档中的信息、分析法律或科学论文以及管理扩展对话的需求不断增长。这些任务涉及消耗大量信息,凸显了较长上下文处理的重要性。尽管发展迅速,但自注意力机制的局限性变得明显,因为它的内存使用量随着序列的增加而增加,从而限制了上下文窗口的大小。翻译 2023-10-29 19:09:24 · 278 阅读 · 0 评论 -
Responsible Task Automation: Empowering Large Language Models as Responsible Task Automators翻译
最近先进的大型语言模型(LLM)在许多现实世界场景中表现出强大的语言理解,推理,生成,泛化和对齐能力。LLM通过扩大深度学习来获取有关开放领域任务的通用知识,这标志着迈向通用人工智能的重要里程碑。除了语言任务之外,LLM还通过与特定领域的模型合作,获得了多模态感知和生成能力。研究人员一直通过将LLM连接到各种特定领域模型或API上来彻底改变任务自动化的领域,其中LLM充当大脑从而作为协调器,而特定领域的模型或API则充当动作执行器。采用LLM来构建用于自动完成各种任务的通用助手仍处于初步探索阶段。翻译 2023-06-26 14:12:59 · 195 阅读 · 0 评论 -
RECURRENTGPT: Interactive Generation of (Arbitrarily) Long Text翻译
事实证明,大型语言模型(LLM)(例如ChatGPT)是非常有效的工具,可帮助执行各种常规写作任务,包括电子邮件和博客文章。然而,由于Transformer结构固有的固定大小的上下文设计,仅通过提示LLM来生成长文本(例如小说)是不可行的。相反,从理论上讲,循环神经网络(RNN)具有生成任意长度序列的能力,这要归功于其循环机制:RNN维持一个在每一个时刻进行更新的隐藏状态,并在每个时刻使用当前的输出作为下一时刻的输入。但是,实际上,RNN会面临梯度消失和爆炸的问题,并且很难扩大其模型尺寸。翻译 2023-06-08 18:28:18 · 595 阅读 · 0 评论 -
TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs翻译
从可以处理和理解不同模态数据的理解模型(例如BERT,ViT,Whisper)到可以生成各种类型输出并与世界交互的生成式模型(例如GPT-4,GPT-3,Codex,DALL·E),基础模型在这十年中取得了显着的进步。ChatGPT令人印象深刻,许多人认为这是生成式智能(AGI)出现的标志。但是,基础模型在一些特定任务上仍然面临局限性和挑战,例如执行准确数学计算的任务或在现实世界完成需要处理文本和视觉技能的多步骤任务。翻译 2023-05-10 13:46:43 · 421 阅读 · 0 评论 -
ChatGPT for Robotics: Design Principles and Model Abilities翻译
自然语言处理(NLP)的快速发展导致了大型语言模型(LLM)的发展,例如BERT,GPT-3和Codex,它们正在彻底改变各种应用场景。这些模型在各种任务中取得了显着的结果,例如文本生成,机器翻译和代码生成等。这些模型家族的最新成员是OpenAI ChatGPT,这是一种预训练的文本生成模型,使用人类反馈进行了微调。与以前仅在单个提示(任务)下运行的模型不同,ChatGPT通过对话提供了特别令人印象深刻的交互技巧,将文本生成与代码生成相结合。翻译 2023-05-08 11:00:59 · 677 阅读 · 0 评论 -
Generative Agents: Interactive Simulacra of Human Behavior翻译
我们如何制作一个可以反映可信人类行为的交互人类社会?从模拟人生等沙盒游戏到认知模型和虚拟环境等应用,在过去40年,研究人员和从业人员已经设想能作为人类行为的可信代理的计算智能体。在这些愿景中,计算智能体基于其历史经历做出合理的行为,并对环境做出可信的反应。这种对人类行为的模拟可以放置到虚拟空间,并和现实社会现象交流,这可以教人们如何处理罕见但困难的人际交往,测试社会科学理论,为理论和可用性测试建模人类处理器,加速计算应用和社会机器人,并支撑了可以在开放世界中浏览复杂人际关系的游戏角色。翻译 2023-04-23 16:02:40 · 2781 阅读 · 0 评论