- 博客(30)
- 收藏
- 关注
原创 大模型选型实战指南|教育行业:108个模型「闭卷考试」实测,这3类应用场景直接抄作业!
教育行业大模型选型必读1.闭卷考试!独家评测集:用最新K12真题(小学-高中全学科)构建“闭卷考场”,108个模型同台竞技,数据污染率<5%(传统评测集污染率超60%)2.价格透明对比:40元/M tokens的阿里系模型VS 2元/M tokens的字节系、腾讯系模型,谁更值?3.四大选型禁区:>60元但得分<75的模型被列入不推荐名单(附避坑清单)4.核心结论直出:教学核心环节必须用专用模型,90%场景用通用模型可降本50%+
2025-05-15 14:31:44
1150
原创 大模型评测【行业应用篇】教育行业-小学奥数|「AI老师」离我们还有多远?106个大模型实测横评04.22
AI大模型在小学奥数考试的综合表现总结1. 核心优势顶尖答题能力商用模型(如gemini-2.5、DeepSeek-R1)在奥数题解中已接近人类专家水平。高稳定性与覆盖率商用模型在优秀(≥90分)和良好(80-89分)区间占比超70%,具备大规模教学应用的坚实技术基础。开源潜力可挖掘DeepSeek-R1等头部开源模型证明,通过针对性优化,开源方案可达到商用标杆水平。2. 局限性长尾效应显著低分模型(<60分)占比18%,需严格筛选才能用于教学。开源模型适用场景受限中低分段开
2025-04-24 15:39:50
697
原创 大模型评测【开源篇】Llama4作弊?|8大领域300+能力维度深度实测,横向对比顶尖开源模型,揭晓结果04.22
本期通过8大领域300多项能力维度,来评估Llama4真实水平。并对比上一代Llama3、对比其他顶尖开源模型、对比同价位的大模型,三个角度对比分析,输出实测结论,为大家更好了解Llama4提供各项实测数据。
2025-04-23 15:35:11
831
原创 大模型评测【行业应用篇】医疗行业|「专业知识考试-预防医学与公共卫生学」大模型应用实测横评03.27
【评测结论】:百度系模型得分第一,豆包、腾讯系混元大模型分列2-5名,,其中hunyuan-large是前5中唯一一个开源模型。
2025-04-21 12:07:51
298
原创 大模型评测【行业应用篇】医疗行业|「专业知识考试-中医学与中药学」大模型应用实测03.27
【评测结论】:百度系模型得分第一,豆包、腾讯系混元大模型、deepseek分列2-4名,,其中deepseek是前5中唯一一个开源模型。
2025-04-18 11:26:25
737
原创 大模型评测【行业应用篇】医疗行业|「专业知识考试-临床医学」大模型实测03.27
【评测结论】:百度系模型得分第一,豆包、腾讯系混元系列模型分列2-5名,deepseek排名第6,其中hunyuan-large是前5中唯一一个开源模型。
2025-04-17 14:42:10
1271
原创 大模型评测【行业应用篇】教育行业|「小学学科考试」大模型应用实测
【评测结论】:阿里系qwq-plus-2025-3-5(new)得分第一,豆包第二,qwq-32bn(ew)第3,腾讯系、百度系占据第4和第5名,其中qwq-32bn(ew)是前五中唯一的开源模型。
2025-04-11 14:33:26
472
原创 大模型评测【开源篇】Qwen大模型|同样的基座,推理模型Qwq相比常规模型Qwen-instruct,到底哪里更强?
相比instruct模型,qwq总分提高了13%,十分可观。最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。“推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于逻辑推理能力。
2025-04-11 11:21:03
1188
原创 大模型评测【行业应用篇】教育行业|「初中学科考试」大模型应用实测03.28
【评测结论】:百度得分第一,豆包第二,deepseek第四,腾讯系混元系列模型占据第3和第5名,其中deepseek是前五中唯一的开源模型。各科目完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
2025-04-10 17:25:06
344
原创 大模型评测|金融行业【AI财务会计师】离我们还有多远?103个大模型实测横评04.09
随着AI大模型越来越“聪明”,“AI抢饭碗”之类的新闻不绝于耳,焦虑蔓延。本着实事求是的原则,让大家了解AI是否能替代你的职业岗位?AI距离各行各业的数字员工还有多远?我们针对这些有争议的话题,围绕AI数字员工的胜任力进行评测,用具象的评测数据回答AI风潮下的这些焦虑。让大家心里有底,能够理性对待,不做时代的“韭菜”。本期我们先从金融行业-财务领域开始,评测AI财务会计师。
2025-04-10 09:00:00
1027
3
原创 大模型评测【DeepSeek】|最新的DeepSeek-v3-0324相比旧版本提升了多少?哪方面提升最多?
DeepSeek-v3-0324总分提高了15%,算是稳步提升。而在法律和行政公务领域却有超出预期的巨幅改进,涨幅分别高达55%、41%。相比之下,在金融领域却只有3%的微小提升。
2025-04-09 13:59:10
844
原创 大模型评测【行业应用篇】教育行业|「高中学科考试」大模型应用实测03.28
【评测结论】:豆包得分第一,deepseek第二,腾讯系混元系列模型分列3-5名,其中deepseek是前五中唯一的开源模型。各科目完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
2025-04-09 12:21:53
355
原创 大模型评测【行业应用篇】医疗行业|「专业知识考试-基础医学」大模型应用实测横评03.27
【评测结论】:百度系模型得分第一,豆包、deepseek、混元分列2-4名,其中deepseek是前4中唯一一个开源模型。各科目完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
2025-04-08 15:00:11
409
原创 大模型评测【行业应用篇】教育行业|「高考答题」大模型应用实测横评03.28
【评测结论】:deepseek得分第一,腾讯系混元系列模型、阿里系qwq系列模型分列2-5名,其中deepseek和qwq-32b(new)是前五中唯二的开源模型。
2025-04-03 14:10:27
944
原创 大模型评测【行业应用篇】法律行业|律师资格考试,108个大模型应用实测横评!
法律行业-律师资格考试应用评测,评测结论:百度系大模型得分第一!腾讯系大模型包揽第2、第3名、第4名,DeepSeek排名第5名,前5名中hunyuan-large和DeepSeek-R1是唯二的开源模型。
2025-04-03 10:59:58
617
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:行政公务领域03.05
大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!错题本——百万级大模型错题本。
2025-04-02 14:00:00
860
原创 大模型评测【综合能力篇】|8大领域、107个大模型实测横评综合能力排行榜04.01
一、综合能力排行榜(图)1.1 推理类模型排行榜(表)1.2 商用大模型排行榜(含开源模型的付费API)(1)输出价格30元及以上(表)(2)输出价格5~30元(表)(3)输出价格1~5元(表)(4)输出价格1元以下(表)1.3 开源大模型排行榜(1)5B以下(表)(2)5B~20B(表)(3)20B以上(表)
2025-04-02 09:00:00
1784
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:法律领域03.05
大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!错题本——百万级大模型错题本。
2025-04-01 14:39:47
817
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:教育领域03.05
教育领域目前囊括4个维度:高考,高中各学科,初中各学科,小学各学科。
2025-04-01 08:17:02
498
原创 教育行业|小学至高中3个阶段、9个学科、110个大模型应用实测横评!
评测结论:字节系豆包大模型得分第一!DeepSeek排名第二,腾讯系大模型和阿里系大模型包揽3-5名,DeepSeek是排名前5中唯一的开源模型。
2025-03-31 15:57:24
1007
原创 医疗行业|12个分类、18科目,110个大模型应用实测横评!
评测结论:百度系最新大模型得分第一!,腾讯系混元大模型排名第二,DeepSeek排名第七,和腾讯系模型是排名前10中唯二的开源模型。
2025-03-31 12:37:02
879
原创 参数量5B以下端侧大模型03.13——CLiB大模型排行榜
评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。输出价格单位:(元/M tok)
2025-03-29 08:45:00
858
原创 参数量5B~20B中等尺寸大模型03.13——CLiB大模型排行榜
评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。输出价格单位:(元/M tok)
2025-03-28 14:00:00
1177
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:03.05医疗领域
医疗领域目前囊括3个维度: 医师考试-规培结业,医师考试-执业助理医师,医师考试-执业医师。其中规培结业含外科、皮肤科等18个方向,执业助理医师含临床执业助理医师、口腔执业助理医师等5个方向,执业医师含中西医结合执业医师、公共卫生执业医师等5个方向。结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!最全——全球最全大模型产品评测平台,已囊括~200个大模型。最方便——无需注册/梯子,国内外各个大模型可一键评测。最新——日更各个大模型各项能力指标评测,输出排行榜。
2025-03-28 08:45:00
1689
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:推理与数学计算领域03.05
以下为推理与数学计算领域排行榜:输出价格单位:(元/M tok)排名大模型机构输出价格推理与数学计算1深度求索1692.752深度求索892.473深度求索1.390.114深度求索0.789.835phi-4微软189.806阿里巴巴1289.337深度求索4.188.828meta4.187.429阿里巴巴787.4110阿里巴巴1287.0311meta2.286.57125.885.56。
2025-03-27 14:00:00
1452
原创 那些免费的大模型API效果到底好不好?——CLiB大模型排行榜
随着AI技术的普及,越来越多的平台推出了免费的大模型API,吸引了不少开发者和企业尝试。但免费是否意味着效果打折?在实际应用中,它们的表现能否满足需求?我们通过评测来一探究竟。我们精选了15个大模型,它们均能长期提供免费API,但不包括那些限时免费、新用户短期体验的模型。
2025-03-26 14:00:00
909
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:语言与指令遵从领域03.05
以下为语言与指令遵从领域排行榜:输出价格单位:(元/M tok)排名大模型机构输出价格语言与指令遵从1深度求索16.0091.162阿里巴巴12.0087.973深度求索1.3087.744阿里巴巴7.0087.605阿里巴巴6.0086.916深度求索8.0086.587深度求索0.7085.568nvidia2.2085.5095.8085.3810meta4.1085.3711meta2.20。
2025-03-26 09:00:00
1001
原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04
开源大模型竞争,现在是Llama、Qwen和DeepSeek三足鼎立之势,谁优谁劣,我们直接上榜单!
2025-03-25 12:00:48
1504
原创 【大模型实测横评】DeepSeek到底强在哪?这个评测一目了然!
实测deepseek通用能力,有评测方法、有评测题集、有数据、有图、有真相!我愿称之为最全、最具像的评测,所有大模型评测得分一目了然!
2025-03-20 15:59:00
825
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人