大模型评测【开源篇】_easyllm的博客-优快云博客

大模型评测【开源篇】

关注

文章平均质量分 89

针对开源AI大模型的各项能力进行评测，综合打分，输出结果和排名。所有大模型评测的方法、题集、过程、得分结果，错题集，均可见可追溯！

关注数：文章数：8 文章阅读量：13045 文章收藏量：174

作者: easyllm

【公众号】大模型评测及能力提升NoneLinear；交流小助手（微信）：13060841772；️助力技术优化交流+行业应用，选模型不踩坑，提效快。某厂AI算法研发，爆肝实测+横评各个AI大模型的各项能力，已累计输出 200+10万次以上的大模型评测；实时更新数据集（8大领域，300+维度，1万+题目，最新题集低污染度），累计200 万+badcase（大模型答题错误案例）大模型缺陷库。

展开

专栏收录文章

Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04

开源大模型竞争，现在是Llama、Qwen和DeepSeek三足鼎立之势，谁优谁劣，我们直接上榜单！

原创 2025-03-25 12:00:48 · 2871 阅读 · 0 评论
大模型评测【开源篇】Llama4作弊？｜8大领域300+能力维度深度实测，横向对比顶尖开源模型，揭晓结果04.22

本期通过8大领域300多项能力维度，来评估Llama4真实水平。并对比上一代Llama3、对比其他顶尖开源模型、对比同价位的大模型，三个角度对比分析，输出实测结论，为大家更好了解Llama4提供各项实测数据。

原创 2025-04-23 15:35:11 · 1006 阅读 · 0 评论
大模型评测【开源篇】Qwen大模型｜同样的基座，推理模型Qwq相比常规模型Qwen-instruct，到底哪里更强？

相比instruct模型，qwq总分提高了13%，十分可观。最突出的改进，除了“推理与数学计算”提升21%外，“法律”及“行政公务”都有大幅提高，分别达到20%、27%。“推理与数学计算”方面的改进在我们预料之中，然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现，医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度，而法律/行政公务（特别是后者的行测题）更依赖于逻辑推理能力。

原创 2025-04-11 11:21:03 · 2109 阅读 · 0 评论
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：行政公务领域03.05

大模型评测EasyLLM目前已囊括203个大模型，覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型，以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。结果可见——所有大模型评测的方法、题集、过程、得分结果，可见可追溯！错题本——百万级大模型错题本。

原创 2025-04-02 14:00:00 · 979 阅读 · 0 评论
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：教育领域03.05

教育领域目前囊括4个维度：高考，高中各学科，初中各学科，小学各学科。

原创 2025-04-01 08:17:02 · 568 阅读 · 0 评论
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：语言与指令遵从领域03.05

以下为语言与指令遵从领域排行榜：输出价格单位：（元/M tok）排名大模型机构输出价格语言与指令遵从1深度求索16.0091.162阿里巴巴12.0087.973深度求索1.3087.744阿里巴巴7.0087.605阿里巴巴6.0086.916深度求索8.0086.587深度求索0.7085.568nvidia2.2085.5095.8085.3810meta4.1085.3711meta2.20。

原创 2025-03-26 09:00:00 · 1259 阅读 · 0 评论
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：推理与数学计算领域03.05

以下为推理与数学计算领域排行榜：输出价格单位：（元/M tok）排名大模型机构输出价格推理与数学计算1深度求索1692.752深度求索892.473深度求索1.390.114深度求索0.789.835phi-4微软189.806阿里巴巴1289.337深度求索4.188.828meta4.187.429阿里巴巴787.4110阿里巴巴1287.0311meta2.286.57125.885.56。

原创 2025-03-27 14:00:00 · 1722 阅读 · 0 评论
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：03.05医疗领域

医疗领域目前囊括3个维度：医师考试-规培结业，医师考试-执业助理医师，医师考试-执业医师。其中规培结业含外科、皮肤科等18个方向，执业助理医师含临床执业助理医师、口腔执业助理医师等5个方向，执业医师含中西医结合执业医师、公共卫生执业医师等5个方向。结果可见——所有大模型评测的方法、题集、过程、得分结果，可见可追溯！最全——全球最全大模型产品评测平台，已囊括~200个大模型。最方便——无需注册/梯子，国内外各个大模型可一键评测。最新——日更各个大模型各项能力指标评测，输出排行榜。

原创 2025-03-28 08:45:00 · 2540 阅读 · 0 评论

大模型评测【开源篇】

作者: easyllm

Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04

大模型评测【开源篇】Llama4作弊？｜8大领域300+能力维度深度实测，横向对比顶尖开源模型，揭晓结果04.22

大模型评测【开源篇】Qwen大模型｜同样的基座，推理模型Qwq相比常规模型Qwen-instruct，到底哪里更强？

Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：行政公务领域03.05

Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：教育领域03.05

Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：语言与指令遵从领域03.05

Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：推理与数学计算领域03.05

Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：03.05医疗领域