大模型评测【行业应用篇】医疗行业|「专业知识考试-临床医学」大模型实测03.27

评测结果,如图所示:

*评测综合得分排名(图)|绿色(闭源),蓝色(开源)

图片

【评测结论】:百度系模型得分第一,豆包、腾讯系混元系列模型分列2-5名,deepseek排名第6,其中hunyuan-large是前5中唯一一个开源模型。

各科目完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

【模型数量】:110个大模型(国内外,开源、闭源的大模型)

【评测维度】:「专业知识考试-临床医学」类目的22个专业细分领域的择题题集评测

  1. 医学影像学

  2. 放射学

  3. 实验诊断学

  4. 神经病学

  5. 外科学

  6. 皮肤性病学

  7. 儿科学

  8. 核医学

  9. 物理诊断学

  10. 牙体牙髓病学

  11. 护理学基础

  12. 诊断学

  13. 超声医学

  14. 口腔护理学

  15. 循证医学

  16. 基础护理学

  17. 流行病学

  18. 口腔组织病理学

  19. 传染病学

  20. 口腔解剖生理学

  21. 麻醉学

  22. 介入放射学

【错题集】:请前往以下链接查阅👇

各科目完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

大模型评测EasyLLM,目前已就DeepSeek和各个大模型的不同能力维度进行了综合评测(详情可回顾以下链接👇),接下来还会针对大模型当律师、医生、老师等各个岗位角色进行测评,看看谁是各个垂直领域的最强打工人!宝子们看好哪个大模型可以在哪些岗位胜任最强牛马?或者想评测大模型的哪方面能力?评论区留言,有求必测,一一公布结果!有评测样本、有错题集、有图有真相!

  往期文章  

医疗行业|110个模型,12个分类、18科目应用实测!

Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04

那些免费的大模型API效果到底好不好?——CLiB大模型排行榜

参数量5B以下端侧大模型03.13——CLiB大模型排行榜

DeepSeek|到底强在哪?这个评测一目了然!


  关于大模型评测EasyLLM  

  1. 首创——行业首创百万级AI大模型错题本

  2. 最全——全球最全大模型产品评测平台,已囊括203个大模型

  3. 最新——月更各个大模型各项能力指标评测,输出排行榜

  4. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  5. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!

大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果,以及各个大模型不同维度、不同细分领域的评测错题本!

完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark


图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值