CaLM 因果推理评测体系：如何让大模型更贴近人类认知水平？

最新推荐文章于 2025-11-26 15:49:07 发布

原创

最新推荐文章于 2025-11-26 15:49:07 发布 · 1.6k 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习 #github #开源

CaLM 是什么

CaLM（Causal Evaluation of Language Models，以下简称“CaLM”）是上海人工智能实验室联合同济大学、上海交通大学、北京大学及商汤科技发布首个大模型因果推理开放评测体系及开放平台。首次从因果推理角度提出评估框架，为 AI 研究者打造可靠评测工具，从而为推进大模型认知能力向人类水平看齐提供指标参考。

因果推理是人类认知能力最重要的特征之一，提升因果推理能力被视为由机器智能迈向人类智能水平的关键步骤。为对大模型进行科学有效的因果推理能力评估，上海人工智能实验室联合团队在 CaLM 中提出包含因果评估目标（Causal Target）、评估方式（Adaptation）、评估标准（Metric）及错误分析（Error）的评估框架，同时构建了超过12万道题目的中英文数据集。

基于 CaLM，联合团队首次对 28 个当前主流大模型进行了因果推理能力评测，共产生了 50 项实证性发现，本文摘录其中 6 个结论。相关论文共 315 页，可查看文末链接，或登录网页查阅下载。

CaLM 评估框架

（CaLM 评估框架）

CaLM 采用了一套灵活、易扩展的评估框架，并按照预设实施顺序进行评测：因果评估目标（Causal Target）→评估方式（Adaptation）→评估标准（Metric）→错误分析（Error）。CaLM 的评估框架设计与实施流程，还可应用于数学推理、专业知识及长文本处理等模型能力评估体系构建。

自下而上的因果评估目标

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。