“未来预测”一直是衡量人工智能是否具备人类级分析能力的关键标尺。无论是金融市场波动、体育赛事结果,还是科技趋势走向,准确预测未来事件不仅要求模型掌握海量知识,更需具备动态信息整合、不确定性推理和实时决策能力。
长期以来,缺乏可靠、动态、无污染的评估基准一直是该领域的核心痛点。3月28日,字节跳动Seed团队联合复旦大学、斯坦福大学、普林斯顿大学正式发布 FutureX——全球首个大规模、多领域、实时更新的未来预测评估基准,正是直指这一空白。
令我印象深刻的是,这项研究不仅构建了一套自动化、日更的未来事件评测系统,还对25个大模型代理进行了全面评估,最终Grok-4脱颖而出,成为未来预测的综合冠军,紧随其后的是Gemini 2.5-flash深度研究模型和GPT-4o-mini(思考搜索模式)。
预测未来,为什么需要新基准?
现有的AI智能体评估基准,如AgentBench、WebArena、GAIA等,大多聚焦于静态环境中的搜索、工具使用和编程能力。这些基准虽然有用,但存在两个根本缺陷。
一是数据污染问题严重。模型可能在训练阶段就已经见过测试问题和答案,导致评测变成记忆力的比拼,而非真正推理能力的检验。
二是无法反映真实世界的动态性。人类专家在做预测时,需要处理不断变化的信息、权衡不确定性、适应新兴趋势——而静态基准无法评估这些能力。
更棘手的是,使用历史数据进行回溯测试(backtesting)会引入“时间泄漏”(temporal leakage)和“检索污染”(retrieval contamination)。因为测试者会不自觉地利用事后知识去搜索过去的事件,从而高估模型的预测能力。
真正科学的未来预测评估,必须是前瞻性的、实时的、活生生的。这正是FutureX设计的根本出发点。
FutureX:为预测未来而生的评估体系
FutureX是一个完全自动化的实时评估基准,其核心创新在于构建了一个动态循环的流水线系统。
这个系统每天从195个高质量网站收集未来事件问题,涵盖政治、经济、科技、体育、娱乐等11个领域。每个事件都有开始日期和解决日期,系统在开始日期自动收集各模型的预测,在解决日期后自动爬取真实结果进行评分。
整个流程无需人工干预,保证了评估的及时性和客观性。
与现有基准相比,FutureX有四大突破性优势:
-
规模最大、领域最广:从2008个网站中筛选出195个高质量信源,每周产生约500个预测事件,远超此前同类基准
-
实时更新:支持每日动态更新,确保问题的时效性和多样性
-
零数据污染:所有问题都是关于未来事件的,保证模型无法在训练数据中见过答案
-
全面自动化评估:支持对25种LLM智能体的自动评估,包括基础模型、搜索推理模型和深度研究模型
Grok-4夺冠,预测能力超越Gemini和GPT
在2024年7月20日至8月3日的评估期间,FutureX对25个模型进行了全面测试,这些模型分为四类:8个基础LLM、7个具备思考搜索能力的LLM、8个开源深度研究代理和2个闭源深度研究模型。
评估结果令人惊讶——Grok-4以显著优势夺得综合排名第一,紧随其后的是Gemini 2.5-flash深度研究模型和GPT-4o-mini(思考搜索模式)。

图:FutureX综合评分排名(7月20日至8月3日)
连马斯克都站出来为自己的 Grok-4 狠狠宣传了一波:

细看不同难度层级的表现,结果更加有趣。FutureX将预测任务分为四个难度等级:
-
基础层级:单选问题,选项少于4个
-
广泛搜索层级:多选问题,需找出所有正确答案
-
深度搜索层级:开放式问题,事实相对稳定
-
超级代理层级:高波动性的开放式问题,即使在最苛刻的真实环境下也需要细致、不确定性感知的预测


图:各模型在不同难度层级的表现
研究发现,基础模型在简单任务上表现良好,甚至超过某些具备搜索工具的代理。例如,DouBao-Seed1.6-Thinking在Level 1和Level 2任务上的表现优于许多搜索增强模型。
但随着任务难度增加,搜索工具的重要性急剧上升。在Level 3和Level 4任务中,具备搜索能力的模型明显优于仅依赖内部知识的基础模型。
领域表现差异揭示模型特长
FutureX的另一个亮点是提供了分领域的详细评估结果。这让我们看到不同模型在各领域的特长:
-
GPT系列模型(包括GPT-4.1基础版、GPT-4.1-SmolAgent版和GPT-4o-mini思考搜索版)在加密货币和技术领域表现优异
-
DouBao-Seed1.6-Thinking在金融经济和商业企业领域表现突出
-
DeepSeek-V3(SmolAgent版)在政治领域表现出色,甚至超过了闭源深度研究代理和思考搜索LLM

图:Level 1和Level 2任务中各领域的表现

图:Level 3和Level 4任务中各领域的表现
这些差异显示,不同模型有其擅长的特定领域,这也暗示着未来可能会出现更多领域专用的预测模型。
人类 vs AI:预测能力对决
最引人深思的发现来自人类与AI的对比研究。研究团队邀请了40位行业专家(来自四大会计师事务所、顶级咨询公司和九大投资银行)对300个问题进行了预测。
结果显示,人类在Level 1、Level 3和Level 4任务中显著优于AI模型,只有在Level 2任务中部分模型超越了人类。这可能是因为Level 2任务涉及大量选项,人类难以穷尽比较所有可能性。
总体而言,AI要达到人类专家的预测水平,还有很长的路要走。但领先的模型已经显示出与人类专家竞争的巨大潜力。
漏洞与挑战:虚假信息与实时搜索的局限
FutureX研究还揭示了AI预测系统的几个关键漏洞:
深度研究代理易受虚假网站影响。通过制作高度逼真的虚假新闻网站,研究者成功误导了GPT-o3深度研究、Seed 1.6(DouBao深度研究)和Qwen3-235B深度研究模型,只有Gemini 2.5-Pro深度研究未被影响。
实时搜索能力仍有限。在需要实时信息的场景中(如体育比赛进行中),专门的深度研究代理并不比通用的思考搜索模型表现更好,有时甚至更差。
这提醒我们,将AI预测系统应用于高风险领域时必须谨慎,需要建立相应的防护机制和验证流程。
AI的未来真的能预测未来吗?
FutureX的发布标志着AI评估进入了一个新阶段——从静态知识测试转向动态预测能力评估。
我认为,未来预测能力将是衡量AI智能体是否真正具备人类级智慧的一个关键指标。能够准确预测未来的AI,不仅需要掌握海量知识,还需要具备整合多源信息、权衡不确定性、适应变化环境的能力——这些正是人类专家在日常工作中所做的事情。
FutureX的价值,预示着真正有用的AI应该是能够帮助我们理解和应对未来的伙伴,而不仅仅是回答已知问题的工具。
随着更多模型参与这项评估,我们将能更清楚地看到不同方法论的优劣,推动整个领域向更可靠、更实用的预测型AI发展。
Grok-4的夺冠只是开始。
无论是Grok-4的领先,还是人类专家的优势,都只是暂时的 snapshot。
AI预测未来,超越人类或许只是时间问题?
论文地址: https://arxiv.org/pdf/2508.11987
FutureX评测系统: https://futurex-ai.github.io/
Grok-4夺冠:AI预测未来基准首测

被折叠的 条评论
为什么被折叠?



