该文章聚焦大语言模型(LLMs)的气候知识储备,通过量化评估明确其在气候数据召回上的能力边界与局限,同时提出了可复现的评估框架。创新点在于首次系统评估LLMs对特定地点数值化气候常态的闭卷召回能力,并揭示了地理语境、海拔等因素对其准确性的关键影响。
一、文章主要内容总结
- 研究核心问题
探究LLMs在无外部检索(闭卷模式)下,能否准确召回特定地点的气候常态数据,以“1991-2020年7月2米处平均气温”为典型查询,对比ERA5再分析数据验证准确性。 - 关键研究发现
- 气候模式捕捉能力:LLMs能编码基础气候结构(如纬度、地形相关温度分布),全球均方根误差(RMSE)为3-6°C,偏差约±1°C,但高海拔(1500米以上)和高纬度地区误差显著,RMSE可达5-13°C。
- 影响准确性的因素:添加地理语境(国家、城市等)可使误差平均降低27%;同模型家族中,参数规模越大的模型表现越好;降低采样温度(如设为0.3)能小幅提升准确性,但效果不一致。
- 气候变迁评估局限:LLMs能捕捉1950-1974年与2000-2024年全球平均变暖幅度(接近ERA5的1.05°C),但完全无法复现区域尺度的温度变化空间模式。
- 研究结论
LLMs可召回当前气候分布的基础数据,但缺乏对长期气候动态区域特征的表征;其误差源于训练数据局限而非物理机制理解,因此关键气
订阅专栏 解锁全文
90

被折叠的 条评论
为什么被折叠?



