QuantAgent：通过自我完善LLM寻找交易圣杯_quantagent: seeking holy grail in trading by self--优快云博客

本文链接：https://blog.youkuaiyun.com/bagell/article/details/144905881

摘要

基于大语言模型（LLM）的自主代理在制定计划和解决现实世界挑战方面取得了显著进展。然而，将这些代理应用于特定领域，如量化投资，仍然是一项艰巨的任务。其核心挑战在于如何高效地构建和整合一个领域特定的知识库，以便代理在学习过程中使用。本文提出了一种原则性的框架来解决这一挑战，该框架包含一个双层循环。在内层循环中，代理通过与模拟环境交互来改进其响应，而在外层循环中，这些响应在现实世界中进行测试，以自动增强知识库并获得新的见解。此方法能够使代理逐步逼近最优行为，并且效率可以得到保证。此外，通过一个名为 QuantAgent 的自主代理来实现这一框架，该代理用于挖掘交易信号。实证结果展示了 QuantAgent 在发现可行的金融信号和提高金融预测准确性方面的能力。

1. 引言

大语言模型（LLM）的兴起（如 OpenAI 的 GPT 系列和 Touvron 等人的工作）引发了自主代理领域的显著进步，扩展了它们规划和解决复杂现实任务的能力。然而，将这些强大的语言模型应用于特定领域（如量化投资）带来了独特的挑战。一个关键问题是如何向这些模型提供特定领域的金融知识，使其能够像该领域的专家一样解决复杂问题。

当前的主要问题是领域知识的来源和整合。在那些需要丰富经验和专业技术知识的特定领域，构建一个全面的知识库通常需要大量的人力投入。同时，传统方法依赖于通过微调将知识整合到代理的参数化内存中，或者在推理过程中通过检索增强生成技术引用外部数据库。

然而，这些方法面临重大障碍。构建一个广泛而准确的领域知识库不仅在人力成本上高昂，而且在某些领域（如开发金融阿尔法数据库用于量化投资策略）可能不切实际或无法实现。此外，当前的学术研究领域需要一种更原则性的框架，能够系统地评估知识整合对代理的影响，从而支持知识增强代理的发展。

本文提出了一种原则性的双层框架，旨在以最小的干预自主开发领域特定的知识库，同时保持高质量。该框架的核心是一个嵌套循环系统：在内层循环中，代理通过与模拟环境交互来改进其响应，该模拟环境由内部知识库定义。相反，在外层循环中，代理的响应在现实世界中进行评估，自动生成反馈以进一步丰富内部知识库。这种迭代过程推动代理向更好的性能发展，最终实现自主积累丰富的知识库。

通过理论分析来支持该框架，证明内层和外层循环都能有效地收敛到最优解。这种收敛性是通过应用强化学习中的分析技术来证实的，将自我改进机制置于马尔可夫决策过程（Markov Decision Process）的背景下。由此产生的框架不仅涵盖了各种现有的自我改进方法，而且还在某些假设下被证明是有效的。

2. 相关工作

2.1 基于 LLM 的自主代理

最近的研究尝试正式描述自主代理的结构。尽管在术语上有所不同，基于 LLM 的自主代理基本由一组工具（使用工具的能力可以通过学习获得）、一个记忆（无论是长期记忆如知识库还是短期记忆如上下文）、一个规划算法（指导要做什么）组成。在实践中，已经有许多应用涉及到现实世界的任务。

2.2 将 LLM 代理适应特定领域任务

将基于 LLM 的自主代理适应特定领域任务涉及技术如检索增强生成（RAG）和微调。RAG 通过整合外部知识库，增强了 LLM 生成更准确和上下文相关响应的能力，在需要大量事实信息的特定领域证明特别有益。另一方面，微调在特定领域的数

据集上调整预训练模型，通过使模型更适应领域的独特词汇和细微差别，从而在特定任务中提高性能。这些方法通过显著提高精度和相关性，促进了 LLM 代理在各个领域的应用。

2.3 自我改进的 LLM 代理

在将 LLM 代理适应特定领域任务的基础上，自我改进成为关键的下一步，解决了获取特定领域知识这一昂贵或难以获得的问题。这些自我改进代理通过反馈从环境中迭代学习。最近的研究集中在包括游戏、编程和数学问题解决等环境，这些环境自然提供了持续反馈所需的丰富动态数据。这些环境不仅为代理提供了丰富的动态数据来学习，还使得自我改进技术的实际应用成为可能，减少了对手动策划的特定领域数据集的依赖。这种方法促进了 LLM 代理的发展，使其能够自主增强能力，适应新挑战，并随着时间的推移改进其知识库，使自我改进成为其设计中的一个组成部分。

3. 框架

在这一部分，详细阐述了提出的框架的双层架构。左图描述的外层循环代表与现实世界的交互。在这里，代理生成的输出受到现实世界的评估，得到的反馈被整合到代理的知识库中，进而为后续迭代提供信息。右图描述了内层推理循环，作家和法官组件之间发生迭代对话。这个模拟环境利用内部知识库，是代理的推理和改进过程发生的地方。代理通过这个循环迭代，利用共享上下文缓冲区进行知识检索和推理，直到产生满意的解决方案或达到预设的阈值。

3.1 内层推理循环

内层循环作为一个模拟推理环境，其中一个 LLM 或基于规则的系统与知识库交互。它使用一个内存缓冲区，最初包含用户的查询，并通过知识库的数据迭代丰富。代理向知识库提出查询，知识库提供相关信息。一个法官（可以是一组规则或一个 LLM）评估这些信息，以确保其满足用户的查询，当形成响应或达到预设条件时结束循环。

3.1.1 组件

知识库：知识库作为存储代理先前的输出、相关性能得分和反馈的记录库。代理制定查询以提取必要的信息，这些信息随后被处理成嵌入以高效检索相关记录，旨在优化性能准确性和响应多样性之间的权衡。

上下文缓冲区：上下文缓冲区记录了正在进行的交互，保存所有先前的交换和信息。这个累积记录确保了代理推理过程的一致性和连贯性，允许过去的知识为未来的响应提供信息。

作家：作家负责根据从知识库检索到的数据构建响应。它旨在逐步改进其输出，整合法官的反馈以提高后续响应的质量。

法官：法官作为评估者，通过对作家的输出进行评分来提供反馈。其作为评估者的有效性取决于知识库的质量，它在调整代理的输出以提高准确性方面起着关键作用。

3.1.2 程序

单次迭代：在单次迭代中，作家首先从知识库中检索相关知识。利用这些知识，作家制定一个响应。然后，这个响应由法官进行评估，法官提供一个得分和反馈，这些反馈被整合回上下文缓冲区以改进作家下一次响应。

迭代过程：迭代过程基于信息的累积导致逐步改进的响应。循环重复，利用反馈逐步提高响应的质量，直到达到预定的性能阈值或确定最佳响应。

备注：内层循环背后的指导原则是，通过一个强大的响应生成机制，随着迭代次数的增加，作家将从知识库中积累足够的信息，以始终满足法官的标准。这种迭代丰富预计将指导作家产生最佳答案。关于这种收敛过程的正式分析将在第 4.1.2 节中介绍。

3.2 外层反馈循环

外层循环封装了代理与现实世界环境的迭代交互，其中生成的输出被评估和改进。

环境反馈：环境以性能得分和定性评论的形式提供反馈，这些反馈可能由一个复杂的 LLM 生成。这种反馈旨在将新见解注入代理的决策过程中，有潜力提高未来的性能。

知识更新：在收到反馈后，知识库进行更新过程。这个过程包括健全性检查，以确保新信息的完整性和相关性。更新规则的设计旨在维护一个全面的数据库，包括一系列经验，包括成功和不成功的经验。这种方法确保了代理的多样化学习环境，促进了对现实世界场景的细致理解和适应。

备注：法官在内层循环中的角色与外层循环中的环境反馈之间存在明显对比。前者可以描述为提供快速、成本效益高但精度较低的评估，基于有限的知识集。相比之下，后者类似于真理的标准，通常资源密集，但提供了更高的评估保真度。随着外层循环中迭代次数的增加，内层循环的法官积累了丰富的现实世界经验，逐渐提高了其提供高保真评估和反馈的能力。

3.3 与现有方法的比较

许多现有的方法可以看作是此框架的具体实现。一方面，如果丢弃外层循环，那么自我改进方法家族可以看作是，两个 LLM 分别作为行动者和评论家，无论是否有知识库。另一方面，如果简化内层循环为普通的检索增强生成过程，那么许多自我改进方法，如 Voyager 和 FunSearch 都可以实现。

4. 分析

在这一部分，将分析效率（即代理算法可以渐近地收敛到该问题的最优解）和成本（就代币成本和推理时间成本而言）。分析的动机是 1). 了解系统中每个设计组件的效果 2). 分析将其部署到现实世界中是否可行。

4.1 效率

在两个层面上证明了代理算法的效率：内层循环和外层循环。内层循环的效率表明，代理可以在当前知识库的情况下找到问题的最佳可能答案，外层循环的效率表明，随着外层循环迭代的增加，由知识库模拟的环境中的最优策略与现实世界中的最优策略之间的性能差距可以收敛。这两个效率保证共同构成了策略可以收敛到全局最优的保证，表明了代理算法的效率。为了分析效率，首先介绍问题的公式。

4.1.1 公式

将生成问题答案的过程（即内层循环）公式化为马尔可夫决策过程（MDP）。这个 MDP 由元组 (S, A, T, r, γ) 定义，每个组件的特征如下：

状态空间 S：任何时间 t 的状态，表示为 st，是原始问题 p 和共享上下文缓冲区中所有信息的组合。最初 st 是一个空集，表示推理过程的开始。

动作空间 A：动作是相对于作家的，因为只有作家的动作是有意义的。动作就像是对问题的答案，基于当前手头的信息。动作也可以是知识库查询，因为它也改变了信息状态。

转换函数 T：定义为 T(s’|s, a)，表明基于当前手头的信息，给定一个动作，信息状态将如何改变。这有几个实现：1). KB 对查询动作的响应 2). 法官对答案动作的审查。因此，KB 和法官共同构成了转换函数。

奖励函数 r：此函数，r (st)，为信息状态 st 分配一个值。r 可以是连续值，表示答案的绝对得分，也可以是 0/1 值，表示答案是否足以回答这个问题。

折扣因子 γ：它定义了代理在考虑未来奖励时的权重，通过强调长期结果的重要性来塑造推理过程的战略深度。在实践中，使用 γ ∈ (0, 1) 来确保值函数 Vπ(s) 是有界的，这对分析很重要。

给定一个策略 π : S → A 和一个由 θ 参数化的环境，定义其值函数和 Q 函数如下：

其中期望值是对 at ∼ π(St) 和 st+1 ∼ Pθ(.|st, at) 对于所有 t > 0。这里 θ 可以被认为是知识库内容。具体来说，θ 通过确定给定查询动作的查询结果来影响转换函数 Pθ(.|st, at)，奖励函数 rθ(s) 也受到知识库的影响，因为法官依赖于它。因此，内层循环的目标是学习一个策略，该策略对所有 s ∈ S 最大化 Vπθ(s)，以便找到任意用户问题的足够信息。

目标是证明的代理在内层和外层循环中都是可证明有效的。即，代理的贝叶斯遗憾

在 KT 中是次线性的。

4.1.2 内层循环

根据 (Liu et al., 2023)，对内层循环提出以下假设：

假设 4.1。在上下文中推理步骤中，LLM 作家隐含地执行模拟环境参数的贝叶斯推断。

假设 4.1 本质上指出 LLM 在给定信息状态 s 和其通过预训练获得的先验知识 p(θ) 的情况下，执行隐含的贝叶斯推断 p(θ|s) 环境参数 θ。这种机制也在以前的工作中得到验证 (Xie et al., 2021)。基于估计的环境参数，采用了一种规划机制来确保在 θ 上的最优性：

定义 4.2。（ε-最优性 (Liu et al., 2023)）在一个由 θ 参数化的环境中，如果以下条件以高概率成立，则策略 π 满足 ε-最优性

这样，内层循环的可证明效率表明，通过在不断增长的信息和法官的反馈下迭代改进其答案，

引理 4.3。内层循环中规划代理的贝叶斯遗憾在内部循环迭代次数 T 中是次线性的

这个证明背后的直觉是，由于 LLM 推理是隐含的贝叶斯推断，其对模拟世界参数的后验估计越来越准确，信息差距最终会收敛。鉴于规划算法的最优性，次优性仅取决于模型估计误差。因此，随着信息收敛，模型估计也收敛，最终导致最优策略。

同时，值得一提的是，一站式方法对应于闭环解决方案，没有理论上的效率保证，这意味着它们在理论上不是收敛的。这是因为在 LLM 推理中的信息不会随着迭代增长而累积。然而，在其他工作中，这种方法也工作得很好，表明实际信息差距在 1 次射击后可能并不那么大。此外，其他工作也没有明确地包含规划机制，但也取得了良好的结果，这可能是因为在现实世界的实践中，次优性可能也不是那么严重。

4.1.3 外层循环

外层循环的效率本质上是悲观的结果。首先假设知识库上的最优策略可以通过悲观主义训练得到。这样，知识库可以被视为一个离线数据集，获得这样的最优策略可以视为在这个数据集上执行离线 RL。（Jin et al., 2021）指出，如果离线策略是通过悲观主义学习的，那么离线学习到的最佳策略与在线学习到的最佳策略之间的性能差距可以由信息差距来界定。分析将假设这一点，并基于这一点来获得我们的效率证明。

假设 4.4。给定一个由离线知识库参数化的模拟环境 θ，最优策略 π 可以通过悲观价值迭代（PEVI）（Jin et al., 2021）获得。

引理 4.5。（悲观主义的效率）根据假设 4.4，在真实环境中的 π 和 π* 之间的性能差距是由知识库引起的内在不确定性所界定的。

引理 4.5 保证，在悲观主义下，次优性只与模型参数在真实环境和由知识库参数化的模拟环境之间的估计不准确有关。而且，随着知识库积累了越来越多的关于真实环境的信息，使得模拟环境更接近真实环境，使用悲观主义在这个模拟环境上训练的最优策略也应该有一个收敛的性能差距。这个理论结果桥接了真实环境和模拟环境中的最优策略，结合内层循环效率，桥接了代理学习到的策略与真实环境中的最优策略之间的差距。

4.1.4 总体结果

结合内层和外层循环的可证明效率，可以桥接整体性能差距

定理 4.6。LLM 代理在真实环境中的贝叶斯遗憾，公式 3 中的 R(TK)，在 KT 中是次线性的。

证明。在这里给出证明的概要。每个术语的详细证明可以在 (Liu et al., 2023; Jin et al., 2021) 中找到。性能差距可以基本上分解如下：

当对 T 和 K 取和时，术语 A, B, 在悲观主义假设（假设 4.4）下，可以由离线数据集的内在不确定性（引理 4.5）来界定，在基础 MDP 的适度假设（例如线性 MDP）下是次线性的。同样，对于术语 D，它也由信息差距所界定，在相同情况下是次线性的。对于术语 C，根据引理 4.3，它在 T 中是次线性的。因此，左边的部分，当在公式 3 中取和时，是次线性的。

4.2 成本分析

代币成本：在自我改进阶段，内层循环会产生一个随着规划视野 H 和闭环交互循环 T 的平方增长的代币成本。这样，单个外层循环迭代的计算复杂度为 O(T2 H)。当考虑多轮外层循环迭代时，对于代理的自我改进，K 次这样的迭代的累计代币成本扩展到 O(KT2 H)。在推理阶段，不执行外层循环时，代币成本保持在 O(T2 H)，假设从训练到推理的响应生成复杂度没有显著变化。

时间成本：外层循环中每次迭代的时间成本受规划视野和代表基线计算开销的常数因子的影响。假设关键操作的时间是常数，并且每次值计算产生一个单位时间，单个外层循环迭代需要 T(H + Const) 单位时间。因此，整个训练阶段，包括 K 次外层循环迭代，需要 O(KTH) 时间。在推理阶段，没有外层循环，时间复杂度降低到 O(HT)。

5 实验

在这一部分，介绍论文中的实验设置。实验是在一个特定领域的场景中进行的，所以将介绍任务背景，然后是实验中最重要的设置。详细信息见附录。

5.1 背景

任务是金融信号挖掘。金融信号是从金融市场价格数据中计算出来的预测信号，可以用于金融预测。设计金融信号需要良好的市场理解、代码实现技能和如数值分析等数学技能。这项任务的主要目标是获得好的金融信号，具有高预测能力。给定一个交易想法，还希望代理改进其。还希望获得一组多样化的信号，在此基础上可以构建机器学习模型，将它们结合起来以获得更好的预测。

5.2 问题设置

总目标是生成好的金融信号，通过测量来评估。为了实现这一目标，在每次外层循环迭代中，代理被赋予一个交易想法，然后被要求生成既反映这个交易想法又实现良好性能的金融信号（通过考虑其他考虑）。交易想法是从一个分布中采样的，在们的实验中由另一个 LLM 生成。金融信号的实现本质上是一段代码（或等效地是一个函数）具有预定义的模式。类似于 FunSearch，定义了一个模板，如附录所示，让 LLM 代理实现该阿尔法的函数代码。

数据集：选择了中国 A 股市场的 500 只股票。这些数据的时间范围是 2023 年。用于计算金融信号的基本市场数据包含每天收盘时收集的成交量和价格。

基础 LLM：选择了 gpt-4-0125-preview 作为我们基础模型的版本。

5.3 评估协议

预测性能：为了评估金融信号的预测能力，计算信息系数（IC）相对于未来回报。IC 是每个横截面（所有股票在单个时间点）的皮尔逊相关系数，然后对所有时间点进行平均。为了确定知识库（KB）作为信号生成的基础数据集的有效性，检查机器学习模型（即 XGBoost 回归树）使用 KB 作为特征输入的信号的 IC。这评估了 KB 作为创建金融预测模型的可靠来源的潜力。此外，分析信号的夏普比率，以评估其产生满意投资回报的能力。

信号质量：对于数值质量，查看信号所涉及的有效和唯一实体的数量，确保它们能够区分股票。在交易想法相似性方面，衡量信号与其基础交易想法的对应程度。这种相关性对于 LLM 作为投资研究助理的潜在用途至关重要。为了量化这一点，进行成对比较，其中一个 LLM 对不同代理生成的同一交易想法的两个信号进行评估。LLM 选择更准确的信号，从这些成对比较中，构建了一个胜率矩阵。这个矩阵的汇总结果形成了一个排行榜，对代理产生忠于原始交易概念的信号的能力进行排名。这个排名提供了不同代理在捕捉交易想法在其信号实现中的本质方面的能力的见解。

6 结果

这一部分展示了实验结果，支持理论发现。重点介绍代理自我改进能力的主要成果，并通过不同的实验分析了内层和外层循环的效果。

6.1 自我改进的证据

图 5 显示了训练在累积信号和训练在单个阿尔法片段上的持续性能改进。不断提高的预测准确性表明，随着代理自我改进，它能够产生更强的信号以获得更好的预测能力。

6.2 提高阿尔法相关性

为了衡量信号质量，根据生成的迭代对整个过程中生成的信号进行排序，并将其分割成等数量组，以比较它们在准确传达基础交易想法方面的表现，由 GPT-4 判断。图 4 显示了胜率的分布。累积胜率到右上角表明，随着模型的发展，代理在编写高质量信号方面获得了更好的技能，验证了自我改进的有效性。值得注意的是，最右边的矩阵中的递减模式表明了内层和外层循环的有效性。

6.3 内层和外层循环的效果

图 3 展示了整个过程中单个阿尔法属性的演变。虽然看起来没有显著的绩效差异，但蓝色曲线的趋势表明了自我改进在所有指标上的有效性。

7 讨论

研究展示了自主代理的效率，特别是在量化投资领域，展示了它们通过模拟环境进行自我改进和适应的能力。这一进步不仅突出了它们作为金融分析和风险管理工具的潜力，还为它们在包括医疗保健和物流在内的各个复杂领域的应用打开了大门，通过定制知识库和反馈机制。尽管有这些有希望的发展，挑战如对知识库质量的依赖和对计算优化的需求仍然存在。未来的努力将旨在提高代理的学习效率，扩展其应用场景，并探索实时适应动态环境。最终，这些努力强调了基于 LLM 的代理在工业革命决策过程中的巨大潜力，标志着迈向智能自动化时代的重要一步。