- 博客(17)
- 收藏
- 关注
原创 大模型评测【行业应用篇】教育行业|「高考答题」大模型应用实测横评03.28
【评测结论】:deepseek得分第一,腾讯系混元系列模型、阿里系qwq系列模型分列2-5名,其中deepseek和qwq-32b(new)是前五中唯二的开源模型。
2025-04-03 14:10:27
489
原创 大模型评测【行业应用篇】法律行业|律师资格考试,108个大模型应用实测横评!
法律行业-律师资格考试应用评测,评测结论:百度系大模型得分第一!腾讯系大模型包揽第2、第3名、第4名,DeepSeek排名第5名,前5名中hunyuan-large和DeepSeek-R1是唯二的开源模型。
2025-04-03 10:59:58
388
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:行政公务领域03.05
大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!错题本——百万级大模型错题本。
2025-04-02 14:00:00
810
原创 大模型评测【综合能力篇】|8大领域、107个大模型实测横评综合能力排行榜04.01
一、综合能力排行榜(图)1.1 推理类模型排行榜(表)1.2 商用大模型排行榜(含开源模型的付费API)(1)输出价格30元及以上(表)(2)输出价格5~30元(表)(3)输出价格1~5元(表)(4)输出价格1元以下(表)1.3 开源大模型排行榜(1)5B以下(表)(2)5B~20B(表)(3)20B以上(表)
2025-04-02 09:00:00
1550
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:法律领域03.05
大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!错题本——百万级大模型错题本。
2025-04-01 14:39:47
769
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:教育领域03.05
教育领域目前囊括4个维度:高考,高中各学科,初中各学科,小学各学科。
2025-04-01 08:17:02
442
原创 教育行业|小学至高中3个阶段、9个学科、110个大模型应用实测横评!
评测结论:字节系豆包大模型得分第一!DeepSeek排名第二,腾讯系大模型和阿里系大模型包揽3-5名,DeepSeek是排名前5中唯一的开源模型。
2025-03-31 15:57:24
940
原创 医疗行业|12个分类、18科目,110个大模型应用实测横评!
评测结论:百度系最新大模型得分第一!,腾讯系混元大模型排名第二,DeepSeek排名第七,和腾讯系模型是排名前10中唯二的开源模型。
2025-03-31 12:37:02
824
原创 参数量5B以下端侧大模型03.13——CLiB大模型排行榜
评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。输出价格单位:(元/M tok)
2025-03-29 08:45:00
836
原创 参数量5B~20B中等尺寸大模型03.13——CLiB大模型排行榜
评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。输出价格单位:(元/M tok)
2025-03-28 14:00:00
1149
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:03.05医疗领域
医疗领域目前囊括3个维度: 医师考试-规培结业,医师考试-执业助理医师,医师考试-执业医师。其中规培结业含外科、皮肤科等18个方向,执业助理医师含临床执业助理医师、口腔执业助理医师等5个方向,执业医师含中西医结合执业医师、公共卫生执业医师等5个方向。结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!最全——全球最全大模型产品评测平台,已囊括~200个大模型。最方便——无需注册/梯子,国内外各个大模型可一键评测。最新——日更各个大模型各项能力指标评测,输出排行榜。
2025-03-28 08:45:00
1617
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:推理与数学计算领域03.05
以下为推理与数学计算领域排行榜:输出价格单位:(元/M tok)排名大模型机构输出价格推理与数学计算1深度求索1692.752深度求索892.473深度求索1.390.114深度求索0.789.835phi-4微软189.806阿里巴巴1289.337深度求索4.188.828meta4.187.429阿里巴巴787.4110阿里巴巴1287.0311meta2.286.57125.885.56。
2025-03-27 14:00:00
1359
原创 那些免费的大模型API效果到底好不好?——CLiB大模型排行榜
随着AI技术的普及,越来越多的平台推出了免费的大模型API,吸引了不少开发者和企业尝试。但免费是否意味着效果打折?在实际应用中,它们的表现能否满足需求?我们通过评测来一探究竟。我们精选了15个大模型,它们均能长期提供免费API,但不包括那些限时免费、新用户短期体验的模型。
2025-03-26 14:00:00
869
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:语言与指令遵从领域03.05
以下为语言与指令遵从领域排行榜:输出价格单位:(元/M tok)排名大模型机构输出价格语言与指令遵从1深度求索16.0091.162阿里巴巴12.0087.973深度求索1.3087.744阿里巴巴7.0087.605阿里巴巴6.0086.916深度求索8.0086.587深度求索0.7085.568nvidia2.2085.5095.8085.3810meta4.1085.3711meta2.20。
2025-03-26 09:00:00
923
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04
开源大模型竞争,现在是Llama、Qwen和DeepSeek三足鼎立之势,谁优谁劣,我们直接上榜单!
2025-03-25 12:00:48
1364
原创 【大模型实测横评】DeepSeek到底强在哪?这个评测一目了然!
实测deepseek通用能力,有评测方法、有评测题集、有数据、有图、有真相!我愿称之为最全、最具像的评测,所有大模型评测得分一目了然!
2025-03-20 15:59:00
729
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人