榜单
文章平均质量分 85
司南评测
公众号:司南评测体系,致力构建透明、准确的大模型开源评测体系
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepSeek-V3.2-Speciale展现世界一流数学能力丨最新公开学术榜单发布
在 MMLU-Pro 基准和 GPQA-Diamond 基准上,各模型得分均与 GPT-5-2025-08-07 相当,以几分之差落后于 Gemini-3-Pro-Preview。随着大语言模型领域进入高速发展阶段,创新活力不断释放,优质模型密集涌现,头部模型的能力迭代节奏也在持续加快。在衡量高难度数学竞赛能力的 AIME2025 基准,以及指令跟随基准 IFEval上,最新一代国产开源模型能力已与 Gemini-3-Pro-Preview 以及 GPT-5-2025-08-07 处于同一水平梯队。原创 2025-12-19 18:53:49 · 631 阅读 · 0 评论 -
Gemini-3-Pro 强势登顶,GPT-5.1 转向“创作型选手”?丨多模态模型11月最新榜单揭晓
多模态大模型的崛起,正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样,将图像、文本、语音、视频等信息自然融会贯通时,它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面,而是能够读懂语境、推演逻辑、辅助决策,展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化,多模态大模型正加速从实验室走向产业深处,在越来越多的应用场景中持续释放价值,引领智能时代的全面升级与加速到来。司南持续关注大模型的发展动态,原创 2025-12-10 18:33:51 · 1194 阅读 · 0 评论 -
断层式领先!Gemini 3.0全方位评测新鲜出炉
近期,谷歌发布了新一代大模型Gemini 3.0,被视为谷歌重回AI第一阵营的关键里程碑。通用基准方面,Gemini-3-Pro-Preview在MMLU-Pro、GPQA-Diamond、MathVision、MMStar等多个基准上的表现显著领先其他模型,展现出了超越现有标杆的通用认知与推理能力。司南OpenCompass对Gemini-3-Pro-Preview的通用文本能力、学科专业文本能力、通用多模态能力、学科专业多模态能力进行了评测,具体结果如下图所示。每日更新最新 AI 评测方向论文。原创 2025-11-27 16:53:47 · 364 阅读 · 0 评论 -
各有所长,国内外模型安全评估丨多个大模型安全榜单揭晓
覆盖 96 个国内外主流大模型,涉及文本和多模态数据,包括 48 个海外模型(如 Claude-4、GPT-4o 等)、48 个国内模型(如 Qwen3、InternLM等),其中开源模型 75 个,闭源模型 21 个。大模型的在中文环境中的多维度合规性是其在我国广泛应用的关键基础,也是此次评测的重要维度。深层洞察:排名靠前的模型在各评测维度都有比较均衡的安全分数,而排名靠后的模型在社会经济风险维度的安全性较高,而对毒性输入的抵御能力较弱,这说明这些大模型在训练过程中对毒性输入的重视程度需要提高。原创 2025-11-13 11:28:09 · 1057 阅读 · 0 评论 -
Seed持续领跑,国产开源模型异军突起丨多模态模型8月最新榜单揭晓
在多模态推理方面,Gemini-5-20250807 在评测中取得了最佳的成绩,且较第 2 名(Gemini-2.5-Pro,也即上一期的第 1 名)有较大的领先优势,展现出多模态大模型在推理方面快速迭代成效显著。开源模型正迎头赶上,不断拉近与闭源模型领头羊的距离。在多模态创作等领域,GPT-5-20250807 等海外模型仍具有一定优势,同时整体的性能与榜单头名的差距也从上期的 6 分拉近到了本期的不到 2 分,说明海外模型在部分能力上仍具有不可替代的优势,整体性能迭代势头不可小觑。原创 2025-09-12 19:12:10 · 1120 阅读 · 0 评论 -
GPT-5-2025-08-07登顶!工具调用能力呈多元化竞争态势丨大语言模型7月最新榜单揭晓
GPT-5-2025-08-07登顶!国产开源模型比肩海外闭源模型丨大语言模型7月最新榜单揭晓步入2025年下半年,大模型的竞争焦点不再仅仅是‘比参数、卷榜单’,而是转向通用能力与专业能力的深度融合,更加注重实用价值。技术演进也不再局限于语言理解与生成的单一维度,而是迈向知识注入与技能融合的深层进化。越来越多的大模型被赋予代码编写、数学推理、科研理解等多学科能力,既能胜任日常对话任务,又能胜任复杂专业任务。AI不再只是文本生成器或聊天机器人,而正逐步演化为具备跨领域知识与多任务协作能力的“AI专家”。原创 2025-08-14 11:45:26 · 1206 阅读 · 0 评论 -
Seed1.5-VL登顶,国产闭源模型弯道超车丨多模态模型5月最新榜单揭晓
随着图像、文本、语音、视频等多模态信息融合能力的持续增强,多模态大模型在感知理解、逻辑推理和内容生成等任务中的综合表现不断提升,正在展现出愈发接近人类的智能水平。多模态能力也正在从底层的感知理解,迈向具备认知、推理、决策能力的高阶智能,成为通向通用人工智能的重要路径。与此同时,随着模型基础能力的持续增强,多模态模型在各行各业的应用日益深入。从最初“能看懂、会表达”的基础阶段,逐步发展为“能思考、会协作、懂语境”的高级形态,推动智能新时代的加速到来。司南持续关注大模型的发展动态,,近期针对。原创 2025-06-06 19:05:31 · 1212 阅读 · 0 评论 -
谁才是最懂你的多模态大模型?主观评测榜单揭晓,“场景中”见真章!
具备跨模态理解能力的多模态大模型能实现更为丰富、全面的理解与生成,在复杂场景中表现得更接近人类水平,已然成为人工智能领域的重要发展方向。从图文理解、视觉问答到图像推理,模型们看似“万事通”,但真正打动人心、贴近用户需求的模型,究竟该如何评判?国内外主流的闭源模型(如GPT-4.1-20250414、Gemini-2.5-flash等)和开源模型(如InternVL3系列、Qwen2.5-VL系列等),围绕着等多个维度进行了全面评测。相比客观评测,这份榜单采用的,能够更好反映模型在“场景中”的综合能力。原创 2025-05-22 11:22:51 · 1695 阅读 · 0 评论 -
Gemini-2.5-Pro登顶,推理模型强势领跑丨大语言模型4月最新榜单揭晓
大模型技术在全球范围内持续加速演进,各大科技公司竞相推出新一代模型,不断突破语言理解、逻辑推理、代码生成等关键能力的上限,推动AI从单一任务助手迈向多领域协同的智能体。与此同时,以“推理能力”为核心的新模型大量涌现,成为近期技术演进的焦点。从数学计算、逻辑推理到科学问答与代码生成,推理模型不断刷新AI在复杂任务中的表现边界,呈现出从“会答”向“会推理”的跃升趋势。在这一过程中,技术创新与实际应用加速融合,正在重塑人工智能的能力边界与产业格局。原创 2025-05-14 16:39:45 · 1106 阅读 · 0 评论 -
司南大语言模型最新榜单发布!DeepSeek-R1 登顶,推理模型大放异彩!
2025 年伊始,尤其是春节假期前后一段时间,大模型领域犹如一场科技盛宴,每一天都为我们带来前所未有的惊喜与震撼。其中,DeepSeek 发布的 DeepSeek-R1 模型尤为瞩目,它不仅刷新了行业标准,更以其卓越的表现和创新的技术,在全球范围内引发了广泛关注,成为这一时期当之无愧的“话题王”。司南持续关注大模型的发展动态,近期针对国内外主流大语言模型进行了全面评测,现公布!本次榜单囊括了国内外共 41 个大语言模型,包含国内外主流闭源模型和社区开源模型。原创 2025-02-20 20:48:37 · 1309 阅读 · 0 评论 -
Compass Arena 大语言模型对战榜单新一轮更新来啦!
CompassArena自榜单首次上线以来,收到了更多用户的反馈和真实体验数据。今天,大模型对战迎来了新一轮更新,同时新增了子榜单功能,快来看看吧!原创 2024-08-02 10:52:56 · 1111 阅读 · 0 评论
分享