Coggle数据科学 | 大模型理解股市“图”与“文”:VISTA模拟专业股票操盘手 | Arxiv 论文

本文来源公众号“Coggle数据科学”,仅用于学术分享,侵权删,干货满满。

原文链接:大模型理解股市“图”与“文”:VISTA模拟专业股票操盘手 | Arxiv 论文

股票市场风云变幻,价格预测一直是个让投资者又爱又恨的“老大难”问题。最近一项名为 VISTA (Vision-Language Inference for Stock Time-series Analysis) 的创新框架创造性地将 视觉信息(股票走势图)与文本信息(历史价格数据)相结合,然后一股脑地“喂”给一个强大的 视觉-语言模型(VLM)

VISTA: Vision-Language Inference for Training-Free Stock Time-Series Analysis

https://arxiv.org/pdf/2505.18570

研究人员将它与 ARIMA 等传统基线模型以及仅依赖文本的 LLM 预测方法进行了严格的对比测试。结果令人振奋:VISTA 的预测性能最高可超越这些基线模型 89.83%!

在高度复杂且充满噪声的金融市场中,传统的预测方法往往难以应对价格波动的非线性和随机性。论文中甚至通过斯托克韦尔变换(Stockwell transform)的分析,形象地展示了股票价格信号与随机噪声的惊人相似性,这无疑凸显了预测的内在难度。然而,VISTA 正是在这种挑战下,凭借其创新的多模态、零样本学习方法,找到了突破口。

为什么图表如此重要?来自VISTA的独到见解

或许你会问:既然数值本身就能提供给LLM,为什么还需要麻烦地把时序数据转换成图表,再用VLM来分析呢?VISTA 的研究者们对此给出了一个极具说服力的“灵魂拷问”和案例研究。

图片

人类的认知方式本身就是多模态的。 神经科学研究表明,我们的大脑处理符号(数字)和视觉信息走的是不同但相互整合的路径。视觉皮层擅长模式识别,而内侧顶间沟和前额叶皮层则负责数字和逻辑推理。当金融分析师和交易员盯着K线图和折线图时,他们并不是在看一堆随机的线,而是在识别趋势、周期、支撑位和阻力位等这些单凭一串数字难以察觉的“ emergent patterns”(涌现模式)。VISTA 抓住了这一点,它相信机器也需要像人一样,通过视觉来辅助理解。

图片

举个例子:考虑这样一组股价数据:[100, 102, 101, 100, 101, 102, 101, 100, 101, 100]。 如果只把这串数字给一个 **纯文本的LLM (如Google Gemma)**,它可能会预测 [102, 101],仅仅反映出一种持续的随机波动。它看到了波动,但没有看到波动背后的“结构”。

然而,当 VISTA 同时接收到这串数字和它对应的 折线图 时,预测结果却变成了 [101, 100]。为什么会有如此大的差异?因为在折线图中,模型清晰地识别出 101 是一个反复触及但未能突破的“阻力位”,并且整个走势呈现出一个技术分析中常见的“下降三角形”形态——这是一个典型的看跌信号!

这个案例完美地说明了:视觉信息为模型提供了原始数字无法提供的结构和空间线索。 没有图表,模型只是简单地推断波动;有了图表,模型开始对“涌现模式”进行推理,从而使预测更加稳健和富有洞察力。

VISTA 究竟如何运作?

它通过两种方式接收信息:

  • 纯文本模式 (针对LLM) :直接提供股票价格的数值序列。

  • 多模态模式 (针对VLM) :除了数值序列,还会提供一张清晰直观的折线图,将这些历史股价数据可视化。

这项研究的核心问题在于探究:

  1. 多模态输入是否优于纯文本? 简单来说,模型在看到股票走势图后,预测能力是否会比只看到数字更好?

  2. 思维链(Chain-of-Thought, CoT)推理是否有效? 如果模型在给出预测前,先“思考”并描述它的推理过程,预测结果会不会更准确、更具解释性?

多模态提示结构:让模型“看懂”市场

为了公平比较,VISTA 进行了一项巧妙的对比实验:它为每个视觉-语言模型(VLM)匹配了一个架构相似的大型语言模型(LLM)。这样,性能上的差异就可以主要归因于是否加入了视觉输入。

实验中,所有模型都接收相同的历史股票价格数据,但呈现方式不同:

  • 纯文本提示(Text-Only Prompt - LLM): “这些是某只股票在头X天的时序数值:[数值列表]。根据这些时序数值,请大致预测接下来Y天的股票价格。” (例如:These are the time-series values of a stock over the first 10 days: [100, 102, 101, 100, 101, 102, 101, 100, 101, 100]. Considering the time-series values, predict the stock price for the next 2 days approximately.

  • 多模态提示(Multimodal Prompt - VLM): “这是某只股票在头X天的图表,这些是时序数值:[数值列表]。请同时考虑图表和时序数值,大致预测接下来Y天的股票价格。” (例如:This is the plot of a stock over the first 10 days, and these are the time-series values: [100, 102, 101, 100, 101, 102, 101, 100, 101, 100]. Considering both the plot and time-series values, predict the stock price for the next 2 days approximately.

在多模态设置中,模型除了文本提示,还会收到一张历史股价折线图。这让 VLM 能够在生成预测时,除了数值序列,还能整合视觉上的时间模式,从而更全面地理解数据。

思维链解决方案:引导模型“思考”

在初步比较之后,研究团队进一步探索了思维链(CoT)提示能否进一步提升预测准确性。CoT 的核心思想是让语言模型在给出最终答案前,先生成中间的推理步骤。VISTA 假设,鼓励模型分解思考过程,不仅能让预测更清晰,也能带来更准确和一致的结果。

为此,VISTA 对 VLM 的提示进行了修改,加入了更详细的指令,鼓励模型先描述它是如何得出预测的,然后再提供最终预测。修改后的 CoT 提示大致如下:

  • CoT 提示 (CoT Prompt - VLM) : “这是某只股票在头X天的图表,这些是时序数值:[数值列表]。请同时考虑图表和时序数值,分析趋势是上升、下降、稳定还是波动。然后大致预测接下来Y天的股票价格。这只是一个基于图表和时序数值的假设性预测,请忽略新闻或市场情绪等外部因素。只输出接下来预测的价格列表。” (例如:This is the plot of a stock over the first 10 days, and these are the time-series values: [100, 102, 101, 100, 101, 102, 101, 100, 101, 100]. Considering both the plot and time-series values, Examine if the trend is increasing, decreasing, stabilizing, or fluctuating. predict the stock price for the next 2 days approximately. This is a hypothetical projection based only on the trend in the graph and time-series values|ignore external factors like news or market sentiment. Only output the next predicted prices as a list.

VISTA 表现如何?

实验设置:细节决定成败

数据集与预处理:研究使用了法国 CAC40 指数中的四家代表性公司(Accor SA、BNP Paribas SA、Capgemini SE 和 Air Liquide SA)的日线历史收盘价数据,时间跨度从2014年1月1日到2020年1月1日。所有数据都经过了 Min-Max 归一化处理,将数值缩放到 [0, 1] 之间,以保持价格波动的原始结构。

模型选择:为了精准地评估视觉输入的作用,研究团队精心挑选并配对了五组 LLM-VLM 模型,它们在架构上(如:核心语言骨干、参数量、Transformer 深度)尽可能保持一致,主要区别在于 VLM 包含了视觉编码器和跨模态融合层。这些模型包括:

  • T5-Base (LLM) vs. Google DePlot (VLM) :DePlot 将图表转换为“伪文本”,让 T5 直接处理。

  • Llama-3.1-8B-Instruct (LLM) vs. LLaVA-1.5-7B-HF (VLM) :LLaVA 通过 CLIP 编码器将视觉信息映射到 LLM 嵌入空间。

  • Phi-3-mini-128k-instruct (LLM) vs. Phi-3-vision-128k-instruct (VLM) :这是微软推出的紧凑型模型系列,效率高,适合低参数环境。

  • Gemma-3-27B-IT LLM vs. Gemma-3-27B-IT VLM :统一架构的先进多语言模型,评估大规模视觉-语言集成效果。

  • DeepSeek-R1-Distill-Qwen-1.5B (LLM) vs. DeepSeek-VL-2-Tiny (VLM) :DeepSeek 模型家族,用于探究低参数量下多模态训练的影响。

评估指标:每个预测任务都使用过去100天的股票价格数据,预测未来5天的价格。性能通过四种标准回归指标来衡量:均方误差 (MSE)、均方根误差 (RMSE)、平均绝对误差 (MAE) 和平均绝对百分比误差 (MAPE) 。这些指标从不同角度评估预测质量,兼顾了误差大小和可解释性。

VLM-LLM 模型对比较

实验结果清楚地表明,在所有模型对和所选公司中,视觉-语言模型(VLM)的预测性能均优于其纯语言模型(LLM)的对应版本

图片

  • T5 与 DePlot:DePlot 在四家公司中的三家表现更好,例如,在 BNP Paribas 上,MSE 降低了49.7%,在 Capgemini 上降低了44.17%。这表明即使是“图表即伪文本”的模型也能从视觉信息中获益。

  • Llama-3 与 LLaVA:LLaVA 展现了惊人的提升!在 Accor 上,MSE 从0.0413降至0.0046,**提升了88.9%**;在 Capgemini 上也降低了72.22%。这强有力地证明了视觉上下文在时间序列预测中的巨大影响力。

  • Gemma-LLM 与 Gemma-VLM:Gemma 模型对也显示出一致的改进,例如 Accor 的 MSE 降低了40.8%,Capgemini 降低了58.82%。

  • Phi3 与 Phi3Vision:Phi3Vision 表现尤为突出,在 Accor 上将 MSE 从0.0459降至0.0095,**惊人地降低了79.3%;在 Capgemini 上更是降低了89.83%**!

  • DeepSeek-R1 与 Deepseek VL2:尽管提升幅度略小,但 Deepseek VL2 依然优于纯文本模型。

总结而言,视觉-语言模型通过纳入折线图形式的视觉输入,显著提升了生成模型在股票价格预测任务中的准确性,MSE 通常能降低40%至80%。

思维链(CoT)提示:锦上添花还是画蛇添足?

为了探讨 CoT 提示的效果,研究人员对比了 VLM 在“正常提示”和“CoT 提示”下的表现。

图片

  • DePlot:在大多数公司上,正常提示的 MSE 更低,但 CoT 提示在 Air Liquide 和 Capgemini 上带来了改进,这说明其效果可能依赖于具体情况。

  • Deepseek-vl2:CoT 提示带来了更一致的提升,例如在 Capgemini 上 MSE 降低了34.94%,在 BNP Paribas 上也表现出色。

  • LLaVA:结果比较复杂。CoT 提示在所有四家公司上都导致了更高的 MSE,这表明 LLaVA 可能不适合这种推理式的提示方式

  • Gemma:CoT 提示在所有公司上都带来了持续的改进,例如 Accor 的 MSE 降低了19%。

  • Phi3:CoT 提示也带来了积极效果,在 Accor 和 Capgemini 上均有显著改善。

总体来看,思维链提示在大多数 VLM 和股票预测场景中都能提升预测性能,尤其是在 Deepseek-vl2、Gemma 和 Phi3 模型上表现突出。 虽然并非万能药,但 CoT 提示在许多情况下被证明是一种有效的策略,特别是与那些能够利用这种额外推理结构的模型结合时。这表明,对于一些模型,引导其进行逐步推理确实能帮助它们更好地理解并预测时间序列数据。

对比传统基线 ARIMA

为了进一步验证 VISTA 的实力,研究将其与经典的 ARIMA 模型进行了对比。ARIMA 是一种专门针对单变量自相关信号设计的模型,在有限数据和短期预测时,通常表现不俗。

图片

图片

结果显示,通用型语言模型 DeepSeek-R1(未经时间序列归纳偏置优化)的表现逊于 ARIMA,这符合传统模型在特定领域往往优于通用大模型的认知。然而,VISTA(具体是 DeepSeek-VL2 变体)却超越了 ARIMA 模型和纯文本的 DeepSeek-R1。 这充分证明了 VISTA 引入视觉表示的能力,使其能够更有效地捕捉时间序列中细微的变化,从而实现更优异的预测性能。

消融实验与讨论:视觉信号的重要性不言而喻

为了确定 VISTA 的优势是否确实来源于视觉-语言的融合,研究人员进行了一项消融实验:他们故意向输入图片中注入“椒盐噪声”,同时保持文本化的历史价格数据不变,然后观察预测准确度的变化。

结果发现,随着噪声系数的增加,MSE 单调上升。例如,Accor 股票在7%的图像损坏率下,MSE 几乎翻了一倍。这表明,视觉通道是决定性因素。 如果模型仅仅依赖文本化的数字,那么图像中的噪声应该不会影响预测。但实际观察到的却是,一旦图表中的显著结构被噪声掩盖,模型的预测准确度就会下降。

这有力地证明了 VISTA 的性能提升并非仅仅来自语言骨干,而是来源于真正的视觉-语言融合。 折线图提供了坡度、极值对齐、三角形形态等空间线索,这些是纯文本表示无法传达的。VISTA 能够利用这些额外的信号。这项消融实验提供了明确的证据,表明高质量的视觉输入并非可有可无的“装饰”,而是实实在在地提升了短期股票预测的准确性。这正是多模态推理在金融时间序列分析中的核心驱动力。

总结与展望

VLM 能够捕捉到单一模态(无论是纯文本还是纯图像)可能遗漏的互补模式和深层结构。实验结果显示,VLM 比纯文本的 LLM 在预测准确性上有了显著提升,MSE 通常能降低 40% 到 80%,甚至最高可达 89.83%。这就像人类交易员同时看图表和数据一样,能做出更全面的判断。

无需训练,但使用大型 VLM 进行推理仍然需要一定的计算资源。此外尽管 CoT 提示增加了模型推理的透明度,但 VLM 内部复杂的决策过程仍然是一个“黑箱”。模型识别出的“趋势”或“阻力位”是否与人类的金融分析逻辑完全一致,以及其泛化能力在面对极端市场波动或“黑天鹅”事件时的表现,仍需进一步验证。

在实际的金融投资决策中,通常需要结合宏观经济数据、公司基本面、新闻事件、市场情绪以及更复杂的风险管理策略。VISTA 提供了一个强大的技术视角,可以作为辅助工具,但不能替代全面的金融分析和专业的投资判断

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值