“LLM Knows Geometry Better than Algebra: Numerical Understanding of LLM-Based Agents in A Trading Arena”
本文设计了“代理交易竞技场(Agent Trading Arena)”,通过零和游戏模拟复杂经济系统,代理投资股票组合。
在NASDAQ股票数据集上实验表明,通过结合文本股票数据和视觉数据(如散点图或K线图)能显著提升LLMs的几何推理能力,总回报率显著提高。

论文地址:https://arxiv.org/pdf/2502.17967v1
摘要
大语言模型(LLMs)在自然语言处理任务中表现出色,但在动态、未见任务的数值推理方面仍面临挑战。现有基准主要评估LLMs在预定义最佳解上的表现,未能反映真实世界的复杂性。本文设计了“代理交易竞技场(Agent Trading Arena)”,通过零和游戏模拟复杂经济系统,代理投资股票组合。实验表明,LLMs(如GPT-4o)在处理纯文本股票数据时,代数推理能力较弱,倾向于关注局部细节而非整体趋势。视觉数据(如散点图或K线图)能显著提升LLMs的几何推理能力。引入反思模块可进一步改善复杂数据的分析与解读。在NASDAQ股票数据集上验证,LLMs在视觉数据上的推理能力强于文本数据。
简介
大语言模型(LLMs)在自然语言处理任务中表现出色,但在数值和几何推理方面仍需改进,以应对复杂的跨学科挑战。现有基准(如GSM8K和MATH)主要评估模型在熟悉问题上的表现,存在记忆和模式识别的局限性,需开发新的评估方法。
本文引入“代理交易竞技场”,通过动态的股票市场环境测试LLMs的推理能力,强调适应性和实时决策。实验表明,LLMs在处理文本数值数据时表现不佳,倾向于关注绝对值而非数据间的关系;而在可视化数据(如图表)中表现更好。反思模块的引入进一步提升了LLMs在可视化数据上的推理能力,增强了决策的准确性和策略性。该框架在金融、医疗和科学研究等领域具有广泛应用潜力,实验证实LLMs在可视化几何数据上的推理能力优于文本数值数据。

相关工作
LLMs数学基准
数学文字问题(MWPs)研究广泛,发展了多种基准以评估模型的数学推理和解题能力。早期数据集如MAWPS标准化问题,Math23K提供大量中文算术问题,强调结构化方程求解。ASDiv和SVAMP增加了问题类型的多样性和注释丰富性。GSM8K和MATH关注多步推理和高级数学概念,扩展评估范围。MathQA-Python强调程序化推理,MGSM扩展至多语言环境。现有模型主要依赖记忆型回答策略,缺乏真正的数学推理能力。
LLMs用于强化数学推理
LLMs通过专门数据集的训练,提升了数学问题解决能力,模型如Galactica、PaLM-2、Minerva和LLaMA-2在预训练中利用了广泛的数据集。精细调优模型如MetaMath、MAmmoTH和WizardMath专注于数学任务,经过领域特定的微调,能更好地应对高级推理挑战。现有方法依赖大规模训练数据,可能导致模型通过记忆和模式识别而非真正推理来获得高性能。需要替代评估范式,以更准确地评估LLMs在新场景中推广数学原理的能力。
代理交易竞技场(Agent Trading Arena)
本文设计了一个名为“代理交易竞技场”的闭环经济系统,旨在减少人类先验知识和记忆的影响。该系统是一个零和游戏,模拟复杂的定量现实场景。代理可以投资资产、获得股息并支付日常开支,使用虚拟货币。总回报最高的代理获胜。

代理交易竞技场
代理交易场所的结构。资产价格通过买卖系统决定,完全基于代理人的行为和互动,确保结果逐渐显现。引入股息机制,代理人通过资本增值和持有资产的股息获得收入,持有低成本资产的代理人获得更高股息。代理人需支付与财富成比例的每日资本成本,促使其快速交易,刺激市场活动。
代理人在竞技场中学习和竞争。零和游戏结构消除普遍最优策略,代理人需不断适应和学习,发展动态策略。代理人不知隐含规则,仅目标是最大化虚拟财富,需通过经验学习解读游戏规则。代理人易受竞争对手错误信息误导,需依赖经验学习以获得胜利。
数字数据输入的类型
文本数字数据的局限性。LLM在处理文本格式的数值数据时,难以准确理解和做出决策,常常过于关注具体数值而忽视长期趋势和全局模式。LLM对相关关系和百分比变化的理解有限,导致无法有效评估数据点之间的联系。LLM倾向于重视近期数据,忽视历史信息,妨碍其识别长期模式和数值关系。

可视化数字数据的潜力。可视化数据(如散点图、折线图、柱状图)能帮助LLM更好地理解整体趋势和模式,克服文本数据的局限性。结合视觉和文本表示,LLM在识别长期趋势和全局模式方面表现更佳,同时仍能关注局部细节。
反思模块
本文提出了一种策略蒸馏方法,通过分析描述性文本和视觉数据信息,提供实时反馈给LLMs,以生成新策略和优化行动计划。该方法允许代理评估结果、精炼策略并根据反馈持续适应。过程开始于评估当天的轨迹记忆和相关策略,使用评估函数进行分析。战略生成过程利用对比分析高峰和低谷表现者,创建双向学习信号,指导后续迭代。反思模块定期触发,整合每日交易记录,评估策略有效性,优化成功和失败的经验。无效策略存储在策略库中,供代理回顾和学习过去经验。

实验
实验设置
数据集。实验中至少部署了9个代理和3个库存。所有代理均提供相同的初始资金,以确保相同的启动条件。为了进一步验证我们的发现,我们选择了纳斯达克股票数据集的一个子集进行组合投资。

评估指标:
-
总回报率 (TR): TR = (C1 - C0) / C0。
-
胜率 (WR): WR = Nw / Nt。
-
夏普比率 (SR): SR = (Rp - Rf) / σp,Rf设为0。
-
平均日回报 (Mean): 交易期间的日均回报。
-
日回报标准差 (Std): 反映日回报的波动性和风险。
比较实验
实验评估了LLM代理的实时数据分析和推理能力,重点研究文本和视觉表示对决策的影响。

在动态环境中,使用可视化格式(如散点图、K线图等)替代文本输入,发现视觉输入的代理表现优于仅文本输入的代理。结合文本和视觉输入的代理表现最佳,显示出LLM在几何数据推理方面的优势。引入反思模块后,反思代理在股票交易中表现优于非反思代理,尤其在使用视觉输入时。
在NASDAQ股票数据集上进行的两个月投资模拟中,模型在没有额外训练的情况下取得了优异的投资回报,超越了其他模型。

代理使用文本和视觉输入的夏普比率显著高于仅使用文本输入的代理,进一步验证了LLM在几何推理方面的强大能力。
消融分析
实验采用相对评估方法,比较不同LLM在文本和视觉环境中的表现,结果显示DeepSeek在多种LLM环境中表现优异,表明其在任务复杂性适应上具有独特优势。

在“代理交易竞技场”中进行的消融研究显示,使用反思机制的竞争中,GPT-4o和Qwen-2.5表现优于其他模型,结果与之前的发现一致。

总结
本文引入了代理交易竞技场(Agent Trading Arena),一个零和游戏,用于模拟复杂经济系统并评估LLMs在数值推理任务上的表现。LLMs在处理纯文本数值数据(代数推理)时表现较差,但在视觉数据(几何推理)上表现显著提升。视觉表示在复杂场景中支持数值推理的优势明显。反思模块的整合进一步提升了模型性能,增强了LLMs的数据分析和解读能力。
在NASDAQ STOCK数据集上验证了LLMs在视觉几何推理任务中的优越性,表明LLMs在视觉数值数据上的表现优于文本数值数据。研究揭示了LLMs在动态数值推理任务中的优势与局限,为未来在实际跨学科挑战中提升其表现奠定基础。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

1655

被折叠的 条评论
为什么被折叠?



