大模型评测|金融行业【AI财务会计师】离我们还有多远?103个大模型实测横评04.09

随着AI大模型越来越“聪明”,“AI抢饭碗”之类的新闻不绝于耳,焦虑蔓延。本着实事求是的原则,让大家了解AI是否能替代你的职业岗位?AI距离各行各业的数字员工还有多远?我们针对这些有争议的话题,围绕AI数字员工的胜任力进行评测,用具象的评测数据回答AI风潮下的这些焦虑。让大家心里有底,能够理性对待,不做时代的“韭菜”。

本期我们先从金融行业-财务领域开始,评测AI财务会计师。同时,金融等行业各领域不同类型、不同岗位、不同细分维度的AI数字员工评测,都在爆肝输出中,敬请期待(或者包子们想评测那个岗位,欢迎私信,有求必测!)。

一、评测结论:

103个大模型实测横评得分区间分布统计表

分数区间

评级

数量

占比(共103个)

90-100分

优秀

1

0.97%

80-89.9分

良好

9

8.74%

60-79.9分

合格

34

33.01%

0-59.9分

不合格

59

57.28%

  • 整体概况:当前大模型在财务场景应用的显著分化:各家AI大模型替代财务会计师岗位表现为,头部商用模型展现出专业优势,但大量中尾部模型尚未达到实用门槛;财务领域应用候选:建议重点关注80分以上的10个优质模型。

  • 以下为评测的细分维度小结:

  1. 领域最强模型
    字节系大模型豆包得分第一!腾讯系大模型包揽第2、第3名、第4名,DeepSeek排名第5名,前5名中hunyuan-large和DeepSeek-R1是唯二的开源模型。
  2. 头部表现稀缺
    仅有1个模型(商用模型 Doubao-1.5-pro-32k-250115)达到优秀水平(92分),占比不足1%

  3. 中坚力量薄弱
    良好区间(80-89.9分)包含9个模型,其中:

    • 商用模型6个(如hunyuan-turbo 89.8分、hunyuan-large 89.6分)

    • 开源模型3个(如DeepSeek-R1 88.6分、qwq-32b 84.1分)

  4. 合格线集中区
    60-79分区间聚集了34个模型,占总数33%。该区间包含多个知名模型:

    • 商用:SenseChat-5-beta(76.6分)、Claude-3.5-Sonnet(75.9分)

    • 开源:qwen2.5-72b-instruct(77.8分)、deepseek-chat-v3(75.9分)

  5. 尾部问题突出
    不合格模型占比高达57%,其中商用模型在低分段(如gemini-1.5-flash 52.5分、ERNIE-Tiny-8K 25.4分)和超低分段(xunfei-spark-lite 19.4分)占据主要比例。

  6. 分类型统计

  • 商用模型

    在优秀/良好区间占比100%,但同时也贡献了不合格区间的82%(48/59个)

  • 开源模型

    主要分布在合格区间(占比32.4%),最高分DeepSeek-R1(88.6分)位列良好区间

二、评测维度:

针对金融行业-财务领域的初级会计职称、注册会计师、会计从业资格、审计师考试、注册税务师、注册管理会计师考试所涉及的专业知识,构建评测题集,进行评测。

各科目完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

三、评测方法:

根据以上评测维度和题集构建,选取国内外的103个大模型进行实测横评,让他们分别答题,根据结果进行打分,并统计每个大模型的答题准确率,输出综合得分和排名。每一个大模型评测的评测题集、评测得分、评测错题,均可见、可查询、可溯源!

*103个大模型得分排名(图)|绿色(闭源),蓝色(开源)

图片


*103个大模型列表、得分和排名:

图片


关于大模型评测EasyLLM:https://easyllm.site

  1. 最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度

  2. 最新——每周更新大模型排行榜

  3. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯

  5. 错题本——百万级大模型错题本

  6. 免费——为您的私有模型提供免费的全方位评测服务,欢迎私信!

图片

我们的目标是:

通过评测为大家透视化呈现,各个大模型的能力边界,以支持大家高效使用!欢迎交流!!!

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值