【DeepSeek-V3】AI Model Evaluation Framework and index schedule AI模型能力评价指标及对比

AI 模型评估体系 | AI Model Evaluation Framework

1. 模型架构信息 | Model Architecture Information

英文缩写 英文全称 专业中文译名 通俗解释
Architecture Model Architecture 模型架构 AI系统的基础结构设计
MoE Mixture of Experts 混合专家系统 多个专业子模型协同工作的系统架构
Dense Dense Neural Network 全连接神经网络 传统密集连接的神经网络结构
Params Parameters 参数规模 模型可训练参数总量(十亿级)

2. 英语能力评估 | English Language Proficiency

英文缩写 英文全称 专业中文译名 能力测评重点
MMLU Massive Multitask Language Understanding 多任务语言理解评测 跨领域知识综合理解能力
DROP Discrete Reasoning Over Paragraphs 段落离散推理测评 文本分析与数值推理能力
FRAMES Framework-based Reasoning And Modeling Evaluation System 框架化推理建模评估系统 系统化逻辑推理能力
LongBench Long Text Processing Benchmark 长文本处理基准测试 大规模文本处理能力

3. 编程能力评估 | Programming Capability Metrics

英文缩写 英文全称 专业中文译名 评估重点
HumanEval Human Evaluation 人工评测基准 实际编程问题解决能力
LiveCodeBench Live Coding Benchmark 实时编程基准测试 动态编程实现能力
Codeforces Competitive Programming Platform 程序竞赛评测平台 算法竞赛级编程能力
Aider-Edit AI Development Environment and Runtime - Edit AI开发环境运行时编辑系统 代码编辑与重构能力

4. 数学能力评估 | Mathematical Capability Assessment

英文缩写 英文全称 专业中文译名 评估级别
AIME American Invitational Mathematics Examination 美国数学邀请赛测评 高等数学竞赛水平
MATH-500 Mathematics Assessment for Testing Higher-order thinking - 500 高阶数学思维评估-500 高等数学综合能力
CNMO Chinese National Mathematical Olympiad 中国数学奥林匹克测评 奥林匹克数学水平

5. 中文处理能力 | Chinese Language Processing

英文缩写 英文全称 专业中文译名<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hmywillstronger

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值