文章目录
AI 模型评估体系 | AI Model Evaluation Framework
1. 模型架构信息 | Model Architecture Information
英文缩写 | 英文全称 | 专业中文译名 | 通俗解释 |
---|---|---|---|
Architecture | Model Architecture | 模型架构 | AI系统的基础结构设计 |
MoE | Mixture of Experts | 混合专家系统 | 多个专业子模型协同工作的系统架构 |
Dense | Dense Neural Network | 全连接神经网络 | 传统密集连接的神经网络结构 |
Params | Parameters | 参数规模 | 模型可训练参数总量(十亿级) |
2. 英语能力评估 | English Language Proficiency
英文缩写 | 英文全称 | 专业中文译名 | 能力测评重点 |
---|---|---|---|
MMLU | Massive Multitask Language Understanding | 多任务语言理解评测 | 跨领域知识综合理解能力 |
DROP | Discrete Reasoning Over Paragraphs | 段落离散推理测评 | 文本分析与数值推理能力 |
FRAMES | Framework-based Reasoning And Modeling Evaluation System | 框架化推理建模评估系统 | 系统化逻辑推理能力 |
LongBench | Long Text Processing Benchmark | 长文本处理基准测试 | 大规模文本处理能力 |
3. 编程能力评估 | Programming Capability Metrics
英文缩写 | 英文全称 | 专业中文译名 | 评估重点 |
---|---|---|---|
HumanEval | Human Evaluation | 人工评测基准 | 实际编程问题解决能力 |
LiveCodeBench | Live Coding Benchmark | 实时编程基准测试 | 动态编程实现能力 |
Codeforces | Competitive Programming Platform | 程序竞赛评测平台 | 算法竞赛级编程能力 |
Aider-Edit | AI Development Environment and Runtime - Edit | AI开发环境运行时编辑系统 | 代码编辑与重构能力 |
4. 数学能力评估 | Mathematical Capability Assessment
英文缩写 | 英文全称 | 专业中文译名 | 评估级别 |
---|---|---|---|
AIME | American Invitational Mathematics Examination | 美国数学邀请赛测评 | 高等数学竞赛水平 |
MATH-500 | Mathematics Assessment for Testing Higher-order thinking - 500 | 高阶数学思维评估-500 | 高等数学综合能力 |
CNMO | Chinese National Mathematical Olympiad | 中国数学奥林匹克测评 | 奥林匹克数学水平 |
5. 中文处理能力 | Chinese Language Processing
英文缩写 | 英文全称 | 专业中文译名< |
---|