大模型评测【行业应用篇】法律行业｜律师资格考试，108个大模型应用实测横评！

最新推荐文章于 2025-11-11 15:15:02 发布

原创

最新推荐文章于 2025-11-11 15:15:02 发布 · 833 阅读

·

13

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#AI大模型评测 #大模型行业应用评测 #法律大模型应用评测 #大模型实测横评 #大模型评测 #大模型评测对比 #最全AI大模型评测

继续评测，本期安排上了应用于法律行业的大模型能力评测，涉及律师资格考试的专业知识评测。同时，律师等领域不同类型、不同阶段、不同科目的评测，都在爆肝输出中，敬请期待。

一、评测结论：

百度系大模型得分第一！腾讯系大模型包揽第2、第3名、第4名，DeepSeek排名第5名，前5名中hunyuan-large和DeepSeek-R1是唯二的开源模型。

二、评测维度：

针对律师资格考试所涉及的专业知识，构建评测题集（累计3000+），进行评测。

各科目完整评测题集及结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

三、评测方法：

根据以上评测维度，输出3000+选择题，分别让各个大模型进行回答，根据结果进行打分，并统计每个大模型的答题准确率，输出综合得分和排名。每一个大模型评测的评测题集、评测得分、评测错题，均可见、可查询、可溯源！

我们的目标是：

通过评测为大家透视化呈现，各个大模型的能力边界，以支持大家高效使用！

*评测综合得分排名（图）｜绿色（闭源），蓝色（开源）

*实测大模型列表、得分和排名：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。