这篇文章对大型语言模型(LLMs)在天文学领域的能力做了突破性评估,其核心结论和创新点很有价值。文章通过国际天文与天体物理奥林匹克竞赛(IOAA)真题,全面检验了LLMs的复杂推理能力,填补了现有基准仅测试基础天文知识的空白。
一、文章主要内容总结
- 研究背景:现有LLMs在天文学的应用多局限于特定任务(如引力波检测、星系观测解读),且评估基准仅测试基础知识,无法体现真实科研所需的复杂推理能力,亟需更全面的能力评估。
- 研究方法:选取5个顶尖LLMs(GPT-5、Gemini 2.5 Pro等),用2022-2025年IOAA的理论题(49道)和数据分析题(8道)作为基准,由2位IOAA专家按官方评分标准独立打分,同时排除需物理仪器的观测题。
- 核心结果
- 理论考试:Gemini 2.5 Pro(平均85.6%)和GPT-5(平均84.2%)表现最佳,均达金牌水平,在约200-300名参赛者中排名前2;其他模型分数在60.6%-77.5%之间,同样具备竞争力。
- 数据分析考试:模型表现分化,GPT-5仍领先(平均88.5%,排名前10),其他模型分数降至47.9%-75.7%,主要差距在于图表解读和数据可视化能力。
- 共性弱点:所有LLMs在几何推理、空间可视化和概念推理上表现较弱(准确率52%-79%),且存在概念错误、推导不完整等问题。
订阅专栏 解锁全文
1274

被折叠的 条评论
为什么被折叠?



