随着AI大模型越来越“聪明”,“AI抢饭碗”之类的新闻不绝于耳,焦虑蔓延。本着实事求是的原则,让大家了解AI是否能替代你的职业岗位?AI距离各行各业的数字员工还有多远?我们针对这些有争议的话题,围绕AI数字员工的胜任力进行评测,用具象的评测数据回答AI风潮下的这些焦虑。让大家心里有底,能够理性对待,不做时代的“韭菜”。
本期我们先从金融行业-财务领域开始,评测AI财务会计师。同时,金融等行业各领域不同类型、不同岗位、不同细分维度的AI数字员工评测,都在爆肝输出中,敬请期待(或者包子们想评测那个岗位,欢迎私信,有求必测!)。
一、评测结论:
103个大模型实测横评得分区间分布统计表
分数区间 | 评级 | 数量 | 占比(共103个) |
---|---|---|---|
90-100分 | 优秀 | 1 | 0.97% |
80-89.9分 | 良好 | 9 | 8.74% |
60-79.9分 | 合格 | 34 | 33.01% |
0-59.9分 | 不合格 | 59 | 57.28% |
-
整体概况:当前大模型在财务场景应用的显著分化:各家AI大模型替代财务会计师岗位表现为,头部商用模型展现出专业优势,但大量中尾部模型尚未达到实用门槛;财务领域应用候选:建议重点关注80分以上的10个优质模型。
-
以下为评测的细分维度小结:
- 领域最强模型
字节系大模型豆包得分第一!腾讯系大模型包揽第2、第3名、第4名,DeepSeek排名第5名,前5名中hunyuan-large和DeepSeek-R1是唯二的开源模型。 -
头部表现稀缺
仅有1个模型(商用模型 Doubao-1.5-pro-32k-250115)达到优秀水平(92分),占比不足1% -
中坚力量薄弱
良好区间(80-89.9分)包含9个模型,其中:-
商用模型6个(如hunyuan-turbo 89.8分、hunyuan-large 89.6分)
-
开源模型3个(如DeepSeek-R1 88.6分、qwq-32b 84.1分)
-
-
合格线集中区
60-79分区间聚集了34个模型,占总数33%。该区间包含多个知名模型:-
商用:SenseChat-5-beta(76.6分)、Claude-3.5-Sonnet(75.9分)
-
开源:qwen2.5-72b-instruct(77.8分)、deepseek-chat-v3(75.9分)
-
-
尾部问题突出
不合格模型占比高达57%,其中商用模型在低分段(如gemini-1.5-flash 52.5分、ERNIE-Tiny-8K 25.4分)和超低分段(xunfei-spark-lite 19.4分)占据主要比例。 -
分类型统计
- 商用模型
在优秀/良好区间占比100%,但同时也贡献了不合格区间的82%(48/59个)
- 开源模型
主要分布在合格区间(占比32.4%),最高分DeepSeek-R1(88.6分)位列良好区间
二、评测维度:
针对金融行业-财务领域的初级会计职称、注册会计师、会计从业资格、审计师考试、注册税务师、注册管理会计师考试所涉及的专业知识,构建评测题集,进行评测。
各科目完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
三、评测方法:
根据以上评测维度和题集构建,选取国内外的103个大模型进行实测横评,让他们分别答题,根据结果进行打分,并统计每个大模型的答题准确率,输出综合得分和排名。每一个大模型评测的评测题集、评测得分、评测错题,均可见、可查询、可溯源!
*103个大模型得分排名(图)|绿色(闭源),蓝色(开源)
*103个大模型列表、得分和排名:
关于大模型评测EasyLLM:https://easyllm.site
-
最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度
-
最新——每周更新大模型排行榜
-
最方便——无需注册/梯子,国内外各个大模型可一键评测
-
结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯
-
错题本——百万级大模型错题本
-
免费——为您的私有模型提供免费的全方位评测服务,欢迎私信!
我们的目标是:
通过评测为大家透视化呈现,各个大模型的能力边界,以支持大家高效使用!欢迎交流!!!