easyllm-优快云博客

原创新一代豆包推理大模型Doubao-Seed-1.6-think来了，能力全面突破！

2025年4月15日发布的 Doubao-1.5-thinking-pro 凭借长思维链和强化学习技术，在医疗、教育、金融等8大类别中展现了突出的推理性能。时隔两个月，其升级版 doubao-seed-1-6-thinking-250615 于6月15日正式推出，进一步优化了模型架构。

2025-06-26 09:30:00 1908

原创新版DeepSeek-R1-0528多项能力变弱！虽然推理能力变强

总结#1显著增强：行政公务、推理与数学计算大幅优化。 2变弱：金融（↓4.9）、法律（↓1.6）、教育（↓1.6）、医疗（↓1.6）均有所下降，其中金融领域降幅较大。 3基本稳定：心理健康、语言与指令遵从变化极小。

2025-06-25 17:40:07 249

原创干货预警！从价格、性能、策略看OpenAI、Google、Meta、Anthropic的大模型角逐

OpenAI、Google、Meta、Anthropic的大模型，哪家强？！！！

2025-06-23 11:40:16 1244

原创国产大模型“基模五强”硬核对决：旗舰性能、领域专精与价格厮杀！

字节豆包：以“综合实力派”的形象，在多个领域展现出强大的通用能力。阿里千问：凭借“模型矩阵”的优势，力求覆盖所有需求，打法全面。智谱AI：则以“专业领域尖刀”的姿态，在特定行业形成壁垒。深度求索：瞄准“高端性能”和“科研突破”，目标是技术高地。阶跃星辰：作为“潜力黑马”，未来表现值得期待。

2025-06-17 15:48:11 975

原创新版DeepSeek-R1-0528多项能力变弱！虽然推理能力变强

总结显著增强：行政公务、推理与数学计算大幅优化。变弱：金融（↓4.9）、法律（↓1.6）、教育（↓1.6）、医疗（↓1.6）均有所下降，其中金融领域降幅较大。基本稳定：心理健康、语言与指令遵从变化极小。

2025-06-10 09:00:00 443

原创 AI终极对决｜2025大模型高考榜单揭晓，百度95.8分碾压国际巨头，GPT-4o理科溃败！

关键结论：✅ 国产文科统治力：文心4.5文科均分97.3（历史96/政治100），超Gemini 14分！⚠️ 海外理科壁垒：Gemini理科96.7分（生物/化学双满分），唯一压制国产的领域。💥 GPT全线崩盘：GPT-4o理科最高仅物理69分（未进前50），总分比文心低31.3分。

2025-06-09 16:36:57 906

原创 5月推理大模型榜单｜国产紧追，多个细分领域评分领先国外，字节航母（豆包）多项Top1!

【关键发现】1.国产优势：除行政公务（openAI/Google并列第一）和语言领域（openAI第一）外，其余6个领域第一名均为国产模型2.专精特长生：腾讯在医疗、金融领域领先openAI/Google在推理计算和行政领域强势深度求索在语言理解表现优异3.性价比标杆：免费模型：GLM系列两款（医疗/金融场景适用）极致低价：DeepSeek蒸馏模型（＜0.5元）适合教育/语言任务

2025-06-05 09:00:00 815

原创大模型选型实战指南｜教育行业：108个模型「闭卷考试」实测，这3类应用场景直接抄作业！

教育行业大模型选型必读1.闭卷考试！独家评测集：用最新K12真题（小学-高中全学科）构建“闭卷考场”，108个模型同台竞技，数据污染率<5%（传统评测集污染率超60%）2.价格透明对比：40元/M tokens的阿里系模型VS 2元/M tokens的字节系、腾讯系模型，谁更值？3.四大选型禁区：>60元但得分<75的模型被列入不推荐名单（附避坑清单）4.核心结论直出：教学核心环节必须用专用模型，90%场景用通用模型可降本50%+

2025-05-15 14:31:44 1276

原创大模型评测【行业应用篇】教育行业-小学奥数｜「AI老师」离我们还有多远？106个大模型实测横评04.22

AI大模型在小学奥数考试的综合表现总结1. 核心优势顶尖答题能力商用模型（如gemini-2.5、DeepSeek-R1）在奥数题解中已接近人类专家水平。高稳定性与覆盖率商用模型在优秀（≥90分）和良好（80-89分）区间占比超70%，具备大规模教学应用的坚实技术基础。开源潜力可挖掘DeepSeek-R1等头部开源模型证明，通过针对性优化，开源方案可达到商用标杆水平。2. 局限性长尾效应显著低分模型（<60分）占比18%，需严格筛选才能用于教学。开源模型适用场景受限中低分段开

2025-04-24 15:39:50 941

原创大模型评测【开源篇】Llama4作弊？｜8大领域300+能力维度深度实测，横向对比顶尖开源模型，揭晓结果04.22

本期通过8大领域300多项能力维度，来评估Llama4真实水平。并对比上一代Llama3、对比其他顶尖开源模型、对比同价位的大模型，三个角度对比分析，输出实测结论，为大家更好了解Llama4提供各项实测数据。

2025-04-23 15:35:11 992

原创大模型评测【行业应用篇】医疗行业｜「专业知识考试-预防医学与公共卫生学」大模型应用实测横评03.27

【评测结论】：百度系模型得分第一，豆包、腾讯系混元大模型分列2-5名，，其中hunyuan-large是前5中唯一一个开源模型。

2025-04-21 12:07:51 340

原创大模型评测【行业应用篇】医疗行业｜「专业知识考试-中医学与中药学」大模型应用实测03.27

【评测结论】：百度系模型得分第一，豆包、腾讯系混元大模型、deepseek分列2-4名，，其中deepseek是前5中唯一一个开源模型。

2025-04-18 11:26:25 787

原创大模型评测【行业应用篇】医疗行业｜「专业知识考试-临床医学」大模型实测03.27

【评测结论】：百度系模型得分第一，豆包、腾讯系混元系列模型分列2-5名，deepseek排名第6，其中hunyuan-large是前5中唯一一个开源模型。

2025-04-17 14:42:10 1318

原创大模型评测【行业应用篇】教育行业｜「小学学科考试」大模型应用实测

【评测结论】：阿里系qwq-plus-2025-3-5（new）得分第一，豆包第二，qwq-32bn（ew）第3，腾讯系、百度系占据第4和第5名，其中qwq-32bn（ew）是前五中唯一的开源模型。

2025-04-11 14:33:26 587

原创大模型评测【开源篇】Qwen大模型｜同样的基座，推理模型Qwq相比常规模型Qwen-instruct，到底哪里更强？

相比instruct模型，qwq总分提高了13%，十分可观。最突出的改进，除了“推理与数学计算”提升21%外，“法律”及“行政公务”都有大幅提高，分别达到20%、27%。“推理与数学计算”方面的改进在我们预料之中，然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现，医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度，而法律/行政公务（特别是后者的行测题）更依赖于逻辑推理能力。

2025-04-11 11:21:03 2079

原创大模型评测【行业应用篇】教育行业｜「初中学科考试」大模型应用实测03.28

【评测结论】：百度得分第一，豆包第二，deepseek第四，腾讯系混元系列模型占据第3和第5名，其中deepseek是前五中唯一的开源模型。各科目完整评测题集及结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

2025-04-10 17:25:06 412

原创大模型评测｜金融行业【AI财务会计师】离我们还有多远？103个大模型实测横评04.09

随着AI大模型越来越“聪明”，“AI抢饭碗”之类的新闻不绝于耳，焦虑蔓延。本着实事求是的原则，让大家了解AI是否能替代你的职业岗位？AI距离各行各业的数字员工还有多远？我们针对这些有争议的话题，围绕AI数字员工的胜任力进行评测，用具象的评测数据回答AI风潮下的这些焦虑。让大家心里有底，能够理性对待，不做时代的“韭菜”。本期我们先从金融行业-财务领域开始，评测AI财务会计师。

2025-04-10 09:00:00 1156 3

原创大模型评测【DeepSeek】｜最新的DeepSeek-v3-0324相比旧版本提升了多少？哪方面提升最多？

DeepSeek-v3-0324总分提高了15%，算是稳步提升。而在法律和行政公务领域却有超出预期的巨幅改进，涨幅分别高达55%、41%。相比之下，在金融领域却只有3%的微小提升。

2025-04-09 13:59:10 1004

原创大模型评测【行业应用篇】教育行业｜「高中学科考试」大模型应用实测03.28

【评测结论】：豆包得分第一，deepseek第二，腾讯系混元系列模型分列3-5名，其中deepseek是前五中唯一的开源模型。各科目完整评测题集及结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

2025-04-09 12:21:53 431

原创大模型评测【行业应用篇】医疗行业｜「专业知识考试-基础医学」大模型应用实测横评03.27

【评测结论】：百度系模型得分第一，豆包、deepseek、混元分列2-4名，其中deepseek是前4中唯一一个开源模型。各科目完整评测题集及结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

2025-04-08 15:00:11 466

原创大模型评测【行业应用篇】教育行业｜「高考答题」大模型应用实测横评03.28

【评测结论】：deepseek得分第一，腾讯系混元系列模型、阿里系qwq系列模型分列2-5名，其中deepseek和qwq-32b（new）是前五中唯二的开源模型。

2025-04-03 14:10:27 998

原创大模型评测【行业应用篇】法律行业｜律师资格考试，108个大模型应用实测横评！

法律行业-律师资格考试应用评测，评测结论：百度系大模型得分第一！腾讯系大模型包揽第2、第3名、第4名，DeepSeek排名第5名，前5名中hunyuan-large和DeepSeek-R1是唯二的开源模型。

2025-04-03 10:59:58 831

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：行政公务领域03.05

大模型评测EasyLLM目前已囊括203个大模型，覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型，以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。结果可见——所有大模型评测的方法、题集、过程、得分结果，可见可追溯！错题本——百万级大模型错题本。

2025-04-02 14:00:00 970

原创大模型评测【综合能力篇】｜8大领域、107个大模型实测横评综合能力排行榜04.01

一、综合能力排行榜（图）1.1 推理类模型排行榜（表）1.2 商用大模型排行榜（含开源模型的付费API）（1）输出价格30元及以上（表）（2）输出价格5~30元（表）（3）输出价格1~5元（表）（4）输出价格1元以下（表）1.3 开源大模型排行榜（1）5B以下（表）（2）5B~20B（表）（3）20B以上（表）

2025-04-02 09:00:00 3212

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：法律领域03.05

大模型评测EasyLLM目前已囊括203个大模型，覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型，以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。结果可见——所有大模型评测的方法、题集、过程、得分结果，可见可追溯！错题本——百万级大模型错题本。

2025-04-01 14:39:47 933

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：教育领域03.05

教育领域目前囊括4个维度：高考，高中各学科，初中各学科，小学各学科。

2025-04-01 08:17:02 558

原创教育行业｜小学至高中3个阶段、9个学科、110个大模型应用实测横评！

评测结论：字节系豆包大模型得分第一！DeepSeek排名第二，腾讯系大模型和阿里系大模型包揽3-5名，DeepSeek是排名前5中唯一的开源模型。

2025-03-31 15:57:24 1169

原创医疗行业｜12个分类、18科目，110个大模型应用实测横评！

评测结论：百度系最新大模型得分第一！，腾讯系混元大模型排名第二，DeepSeek排名第七，和腾讯系模型是排名前10中唯二的开源模型。

2025-03-31 12:37:02 1097

原创参数量20B以上大模型03.13——CLiB大模型排行榜

评测维度：医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。

2025-03-29 14:15:00 1453

原创参数量5B以下端侧大模型03.13——CLiB大模型排行榜

评测维度：医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。输出价格单位：（元/M tok）

2025-03-29 08:45:00 980

原创参数量5B~20B中等尺寸大模型03.13——CLiB大模型排行榜

评测维度：医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。输出价格单位：（元/M tok）

2025-03-28 14:00:00 1302

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：03.05医疗领域

医疗领域目前囊括3个维度：医师考试-规培结业，医师考试-执业助理医师，医师考试-执业医师。其中规培结业含外科、皮肤科等18个方向，执业助理医师含临床执业助理医师、口腔执业助理医师等5个方向，执业医师含中西医结合执业医师、公共卫生执业医师等5个方向。结果可见——所有大模型评测的方法、题集、过程、得分结果，可见可追溯！最全——全球最全大模型产品评测平台，已囊括~200个大模型。最方便——无需注册/梯子，国内外各个大模型可一键评测。最新——日更各个大模型各项能力指标评测，输出排行榜。

2025-03-28 08:45:00 2532

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：推理与数学计算领域03.05

以下为推理与数学计算领域排行榜：输出价格单位：（元/M tok）排名大模型机构输出价格推理与数学计算1深度求索1692.752深度求索892.473深度求索1.390.114深度求索0.789.835phi-4微软189.806阿里巴巴1289.337深度求索4.188.828meta4.187.429阿里巴巴787.4110阿里巴巴1287.0311meta2.286.57125.885.56。

2025-03-27 14:00:00 1697

原创那些免费的大模型API效果到底好不好？——CLiB大模型排行榜

随着AI技术的普及，越来越多的平台推出了免费的大模型API，吸引了不少开发者和企业尝试。但免费是否意味着效果打折？在实际应用中，它们的表现能否满足需求？我们通过评测来一探究竟。我们精选了15个大模型，它们均能长期提供免费API，但不包括那些限时免费、新用户短期体验的模型。

2025-03-26 14:00:00 1193

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：语言与指令遵从领域03.05

以下为语言与指令遵从领域排行榜：输出价格单位：（元/M tok）排名大模型机构输出价格语言与指令遵从1深度求索16.0091.162阿里巴巴12.0087.973深度求索1.3087.744阿里巴巴7.0087.605阿里巴巴6.0086.916深度求索8.0086.587深度求索0.7085.568nvidia2.2085.5095.8085.3810meta4.1085.3711meta2.20。

2025-03-26 09:00:00 1248

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04

开源大模型竞争，现在是Llama、Qwen和DeepSeek三足鼎立之势，谁优谁劣，我们直接上榜单！

2025-03-25 12:00:48 2841

原创【大模型实测横评】DeepSeek到底强在哪？这个评测一目了然！

实测deepseek通用能力，有评测方法、有评测题集、有数据、有图、有真相！我愿称之为最全、最具像的评测，所有大模型评测得分一目了然！

2025-03-20 15:59:00 1171

easyllm的博客

原创新一代豆包推理大模型Doubao-Seed-1.6-think来了，能力全面突破！

原创新版DeepSeek-R1-0528多项能力变弱！虽然推理能力变强

原创干货预警！从价格、性能、策略看OpenAI、Google、Meta、Anthropic的大模型角逐

原创国产大模型“基模五强”硬核对决：旗舰性能、领域专精与价格厮杀！

原创新版DeepSeek-R1-0528多项能力变弱！虽然推理能力变强

原创 AI终极对决｜2025大模型高考榜单揭晓，百度95.8分碾压国际巨头，GPT-4o理科溃败！

原创 5月推理大模型榜单｜国产紧追，多个细分领域评分领先国外，字节航母（豆包）多项Top1!

原创大模型选型实战指南｜教育行业：108个模型「闭卷考试」实测，这3类应用场景直接抄作业！

原创大模型评测【行业应用篇】教育行业-小学奥数｜「AI老师」离我们还有多远？106个大模型实测横评04.22

原创大模型评测【开源篇】Llama4作弊？｜8大领域300+能力维度深度实测，横向对比顶尖开源模型，揭晓结果04.22

原创大模型评测【行业应用篇】医疗行业｜「专业知识考试-预防医学与公共卫生学」大模型应用实测横评03.27

原创大模型评测【行业应用篇】医疗行业｜「专业知识考试-中医学与中药学」大模型应用实测03.27

原创大模型评测【行业应用篇】医疗行业｜「专业知识考试-临床医学」大模型实测03.27

原创大模型评测【行业应用篇】教育行业｜「小学学科考试」大模型应用实测

原创大模型评测【开源篇】Qwen大模型｜同样的基座，推理模型Qwq相比常规模型Qwen-instruct，到底哪里更强？

原创大模型评测【行业应用篇】教育行业｜「初中学科考试」大模型应用实测03.28

原创大模型评测｜金融行业【AI财务会计师】离我们还有多远？103个大模型实测横评04.09

原创大模型评测【DeepSeek】｜最新的DeepSeek-v3-0324相比旧版本提升了多少？哪方面提升最多？

原创大模型评测【行业应用篇】教育行业｜「高中学科考试」大模型应用实测03.28

原创大模型评测【行业应用篇】医疗行业｜「专业知识考试-基础医学」大模型应用实测横评03.27

原创大模型评测【行业应用篇】教育行业｜「高考答题」大模型应用实测横评03.28

原创大模型评测【行业应用篇】法律行业｜律师资格考试，108个大模型应用实测横评！

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：行政公务领域03.05

原创大模型评测【综合能力篇】｜8大领域、107个大模型实测横评综合能力排行榜04.01

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：法律领域03.05

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：教育领域03.05

原创教育行业｜小学至高中3个阶段、9个学科、110个大模型应用实测横评！

原创医疗行业｜12个分类、18科目，110个大模型应用实测横评！

原创参数量20B以上大模型03.13——CLiB大模型排行榜

原创参数量5B以下端侧大模型03.13——CLiB大模型排行榜

原创参数量5B~20B中等尺寸大模型03.13——CLiB大模型排行榜

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：03.05医疗领域

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：推理与数学计算领域03.05

原创那些免费的大模型API效果到底好不好？——CLiB大模型排行榜

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜：语言与指令遵从领域03.05

原创 Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04

原创【大模型实测横评】DeepSeek到底强在哪？这个评测一目了然！

空空如也

空空如也