
大模型评测【开源篇】
文章平均质量分 89
针对开源AI大模型的各项能力进行评测,综合打分,输出结果和排名。所有大模型评测的方法、题集、过程、得分结果,错题集,均可见可追溯!
easyllm
【公众号】大模型评测及能力提升NoneLinear;交流小助手(微信):13060841772;️助力技术优化交流+行业应用,选模型不踩坑,提效快。某厂AI算法研发,爆肝实测+横评各个AI大模型的各项能力,已累计输出 200+10万次以上的大模型评测;实时更新数据集(8大领域,300+维度 ,1万+题目,最新题集低污染度),累计200 万+badcase(大模型答题错误案例)大模型缺陷库。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04
开源大模型竞争,现在是Llama、Qwen和DeepSeek三足鼎立之势,谁优谁劣,我们直接上榜单!原创 2025-03-25 12:00:48 · 1607 阅读 · 0 评论 -
大模型评测【开源篇】Llama4作弊?|8大领域300+能力维度深度实测,横向对比顶尖开源模型,揭晓结果04.22
本期通过8大领域300多项能力维度,来评估Llama4真实水平。并对比上一代Llama3、对比其他顶尖开源模型、对比同价位的大模型,三个角度对比分析,输出实测结论,为大家更好了解Llama4提供各项实测数据。原创 2025-04-23 15:35:11 · 863 阅读 · 0 评论 -
大模型评测【开源篇】Qwen大模型|同样的基座,推理模型Qwq相比常规模型Qwen-instruct,到底哪里更强?
相比instruct模型,qwq总分提高了13%,十分可观。最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。“推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于逻辑推理能力。原创 2025-04-11 11:21:03 · 1497 阅读 · 0 评论 -
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:行政公务领域03.05
大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!错题本——百万级大模型错题本。原创 2025-04-02 14:00:00 · 879 阅读 · 0 评论 -
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:教育领域03.05
教育领域目前囊括4个维度:高考,高中各学科,初中各学科,小学各学科。原创 2025-04-01 08:17:02 · 510 阅读 · 0 评论 -
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:语言与指令遵从领域03.05
以下为语言与指令遵从领域排行榜:输出价格单位:(元/M tok)排名大模型机构输出价格语言与指令遵从1深度求索16.0091.162阿里巴巴12.0087.973深度求索1.3087.744阿里巴巴7.0087.605阿里巴巴6.0086.916深度求索8.0086.587深度求索0.7085.568nvidia2.2085.5095.8085.3810meta4.1085.3711meta2.20。原创 2025-03-26 09:00:00 · 1076 阅读 · 0 评论 -
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:推理与数学计算领域03.05
以下为推理与数学计算领域排行榜:输出价格单位:(元/M tok)排名大模型机构输出价格推理与数学计算1深度求索1692.752深度求索892.473深度求索1.390.114深度求索0.789.835phi-4微软189.806阿里巴巴1289.337深度求索4.188.828meta4.187.429阿里巴巴787.4110阿里巴巴1287.0311meta2.286.57125.885.56。原创 2025-03-27 14:00:00 · 1538 阅读 · 0 评论 -
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:03.05医疗领域
医疗领域目前囊括3个维度: 医师考试-规培结业,医师考试-执业助理医师,医师考试-执业医师。其中规培结业含外科、皮肤科等18个方向,执业助理医师含临床执业助理医师、口腔执业助理医师等5个方向,执业医师含中西医结合执业医师、公共卫生执业医师等5个方向。结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!最全——全球最全大模型产品评测平台,已囊括~200个大模型。最方便——无需注册/梯子,国内外各个大模型可一键评测。最新——日更各个大模型各项能力指标评测,输出排行榜。原创 2025-03-28 08:45:00 · 1755 阅读 · 0 评论