
大模型评测【开源篇】
文章平均质量分 91
针对开源AI大模型的各项能力进行评测,综合打分,输出结果和排名。所有大模型评测的方法、题集、过程、得分结果,错题集,均可见可追溯!
easyllm
AI独角兽算法研发,爆肝实测+横评各个AI大模型的各项能力,公众号:大模型评测EasyLLM,首创【大模型错题本】!并持续输出评测内容,欢迎交流:
1.最全:全球最全AI大模型评测平台,已囊括203个大模型
2.最新:月更各个大模型各项能力评测指标,输出排行榜
3.最方便:无需注册/梯子,国内外各个大模型可一键评测
4.结果可见:所有大模型评测的方法、题集、过程、得分结果,错题集,均可见可追溯!
展开
-
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04
开源大模型竞争,现在是Llama、Qwen和DeepSeek三足鼎立之势,谁优谁劣,我们直接上榜单!原创 2025-03-25 12:00:48 · 1366 阅读 · 0 评论 -
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:行政公务领域03.05
大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!错题本——百万级大模型错题本。原创 2025-04-02 14:00:00 · 814 阅读 · 0 评论 -
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:教育领域03.05
教育领域目前囊括4个维度:高考,高中各学科,初中各学科,小学各学科。原创 2025-04-01 08:17:02 · 446 阅读 · 0 评论 -
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:语言与指令遵从领域03.05
以下为语言与指令遵从领域排行榜:输出价格单位:(元/M tok)排名大模型机构输出价格语言与指令遵从1深度求索16.0091.162阿里巴巴12.0087.973深度求索1.3087.744阿里巴巴7.0087.605阿里巴巴6.0086.916深度求索8.0086.587深度求索0.7085.568nvidia2.2085.5095.8085.3810meta4.1085.3711meta2.20。原创 2025-03-26 09:00:00 · 930 阅读 · 0 评论 -
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:推理与数学计算领域03.05
以下为推理与数学计算领域排行榜:输出价格单位:(元/M tok)排名大模型机构输出价格推理与数学计算1深度求索1692.752深度求索892.473深度求索1.390.114深度求索0.789.835phi-4微软189.806阿里巴巴1289.337深度求索4.188.828meta4.187.429阿里巴巴787.4110阿里巴巴1287.0311meta2.286.57125.885.56。原创 2025-03-27 14:00:00 · 1363 阅读 · 0 评论 -
Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:03.05医疗领域
医疗领域目前囊括3个维度: 医师考试-规培结业,医师考试-执业助理医师,医师考试-执业医师。其中规培结业含外科、皮肤科等18个方向,执业助理医师含临床执业助理医师、口腔执业助理医师等5个方向,执业医师含中西医结合执业医师、公共卫生执业医师等5个方向。结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!最全——全球最全大模型产品评测平台,已囊括~200个大模型。最方便——无需注册/梯子,国内外各个大模型可一键评测。最新——日更各个大模型各项能力指标评测,输出排行榜。原创 2025-03-28 08:45:00 · 1620 阅读 · 0 评论