LLM 评估汇总:真的吊打 LLaMA-3,媲美 GPT-4 吗?

一、背景

在过去的一年多里,国内在大模型领域的发展异常迅速,涌现出上百个大模型,许多模型已经迭代了多个版本,并且各种指标不断刷新。与此同时,我们也经常在国内的一些文章中看到声称“吊打 LLaMA 3”或“媲美 GPT-4”的说法。那么,国内的大模型真的已经达到对标 OpenAI 的水平了吗?

实际上,由于大模型的评估指标种类繁多,各种文章中所对比的模型也不尽相同,甚至有时会出现一些误导信息。因此,我们决定系统性梳理一下公认性能较强的大模型的相关指标,以全面了解各种模型的能力。

如下图展示了我们梳理的一部分常见文本类基准评估指标(图中的不同底色表示数据来源,比如淡绿色表示数据来自 LLaMA 3 官方,淡蓝色表示数据来自 Claude 3 Paper,灰色表示来自 OpenAI 官方,淡紫色表示来自 Mixtral 官方等)。需要说明的是,这仅仅是部分常见指标,也并未涉及多模态基准评估。此外,由于数据比较多,且来源繁杂,难免会有遗漏或错误的地方,欢迎指出和纠正。本文中,我们也会简单介绍在收集这些数据时发现的一些问题,遇到的困惑,以及具体数据的来源,以便大家也能更准确的分辨各种大模型的能力。

图片

二、引言

2.1 评估指标

常见的文本任务评估指标包括如下几个:

  • MMLU:通用知识和推理能力。
  • MATH:数学解决问题能力。
  • GSM8K:小学数学。
  • HumanEval:Python 编码任务。
  • GPQA:大学生物、物理和化学问答。
  • DROP:阅读理解和算术。
  • Big-Bench-Hard:综合评估。
  • ARC-Challenge:常识推理。
  • HellaSwag:常识推理。
  • AGIEval:大学入学考试和资格考试。
  • MT-Bench:多轮对话基准测试。
  • AlpacaEval 2.0:指令跟随能力。

2.2 评估框架

Harness 是 EleutherAI 开源的 LLM 评估框架,对应的代码库为:GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.。也是 Huggingface 官方 Open-LLM-Leaderboard (a Hugging Face Space by open-llm-leaderboard)后端使用的评估框架,在很多论文中被使用。

Helm 是斯坦福大学开发的 LLM 评估框架,对应的论文为:[2211.09110] Holistic Evaluation of Language Models,对应的代码库为:https://github.com/stanford-crfm/helm。其可以评估模型在 12 个方面的能力。

simple-evals 是 OpenAI 最近开源的针对几个常见指标的评估工具 (GitHub - openai/simple-evals),也是其 GPT-4o 使用的评估工具。如下图所示为其对应的评估结果:

图片

OpenCompass 是一个国内常用的评估框架,对应的代码库为:OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.。其也提供详细的 Leaderboard:OpenCompass司南。如下图所示:

图片

2.3 Few-shot & CoT

在评估中经常会使用 few-shot 和 CoT 方法,如下图所示(图片来自 [2205.11916] Large Language Models are Zero-Shot Reasoners)为 0-shot,few-shot 以及是否包含 CoT 的区别,简单来说:

  • few-shot 就是表示 Prompt 中会提供一些示例,没有示例表示为 0-shot,5 个示例为 5-shot。
  • CoT 就是在 Prompt 中会提供 CoT(Chain of Thought,[2201.11903] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models),也就是推理过程。其中最经典的 CoT 为 “Let’s think step by step.”。

图片

在基准评估中,为了公平对比,使用相同的配置才有参考价值。然而部分评估中并未清晰的列出对应的配置,如下图所示分别为 Introducing Qwen1.5 | Qwen 官网上关于 Qwen1.5 和 零一万物 上关于 Yi-1.5 模型的各种指标,很多都没有明确指出对应的配置,导致部分指标无法对齐:

图片

图片

2.4 Base 模型 & Instruction 模型

现在有很多开源的 LLM 都会提供 Base 模型和 Instruction 模型,其中:

  • Base 模型:是在大量未标注的通用文本数据上进行无监督训练,比如网页、书籍、代码、新闻文章等。Base 模型适用于需要广泛自然语言理解和生成的场景,但对具体的任务可能不如专用模型。
  • Instruction 模型:通常是在 Base 模型基础上,使用经过人工标注或筛选的指令数据通过有监督微调训练而来。这些数据的质量通常很高,而且有些时候会针对特定场景。这类模型更适合需要特定指令进行操作的场景。

虽然 Instruction 模型也是基于 Base 模型微调,但是他们的评估指标可能会有比较大的区别,如下图所示(meta-llama/Meta-Llama-3-70B · Hugging Face),对于 MMLU 指标:

  • LLaMA 2 模型的 Base 模型都比 Instruction 模型高,甚至差了 10 分以上。
  • LLaMA 3 模型的 Base 模型都比 Instruction 模型低。

图片

我们在收集数据的时候发现很多地方会混淆两个模型的指标,比如经常看的 LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys 中就混淆了 Qwen1.5-110B 以及 Qwen1.5-72B 的 Base 模型和 Instruction 模型。参考 Qwen-1.5 的官方博客 Qwen1.5-110B:Qwen1.5系列的首个千亿参数开源模型| Qwen,下图中的 MT-bench 指标确实是 Qwen1.5-110B-Chat(Instruction)和 Qwen1.5-72B-Chat(Instruction)模型,但 MMLU 对应的是 Qwen1.5-110B(Base)和 Qwen1.5-72B(Base)模型:

图片

2.5 不同模型版本

早期的 LLM 通常都会发布详细的技术报告,包括具体版本和性能指标的说明。然而,最近的很多 LLM 仅以简单的博客页面形式发布,甚至缺乏对模型及其评估指标的详细介绍,特别是一些闭源模型。这种变化为不同模型之间的横向对比带来了很大的挑战。如下图所示为 LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys 榜单,可以看出,排名前 12 的模型中,GPT-4 就有 4 个版本,Gemini-1.5 也有三个版本:

图片

2.6 评估工具差异

很多公司都有自己的评估工具,其有些时候不会和开源社区的评估方式完全对齐,导致评估指标的差异。比如在 DeepSeek-V2([2405.04434] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model)中,作者使用了内部评估工具,导致有些结果和我们从 Qwen1.5 72B、Mixtral 8x22B 和 LLaMA3 70B 官方报告中看到的结果不太一致,图中红色部分为相应的官方数据:

图片

在浪潮的源 2.0-M32 [2405.17976] Yuan 2.0-M32: Mixture of Experts with Attention Router 中,作者也提供了 Qwen1.5-72B Chat 的结果,但是看着是直接引用了下图所示 DeepSeek-V2-Chat 的结果。但是源 2.0-M32 中并没有说明自己使用的评估工具。

图片

2.7 数据污染

数据污染问题在大模型训练中非常常见,没有经过仔细的数据清理过程,很可能会在训练集中混入部分基准评估数据。比如,OpenAI 的 GPT-4 Paper 中提到,其发现训练集中不小心混入了 BIG-Bench 数据,所以 GPT-4 Paper 中并未提供 BIG-Bench Hard 的评估结果。

最近 Scale AI 的研究员研究了 GSM-8K 数据泄漏问题,对应的 Paper 为:[2405.00332] A Careful Examination of Large Language Model Performance on Grade School Arithmetic。作者通过人工标注方式构建了 GSM-1K 数据集,其难度与 GSM-8K 类似,包含 1250 道小学数学题。作者使用该数据集对一些开源和闭源 LLM 进行了基准测试,发现部分模型在 GSM-1K 上的性能甚至比 GSM-8K 低 10% 以上,比如 math-shepherd-mistral-7b-rl 指标低了将近 13%;而 Claude 3 和 GPT-4 模型指标没有下降:

图片

如下图所示为部分详细数据,可以看出其包含了多个我们常见的模型,甚至是微软最近发布的非常强大的小模型 Phi-3:

图片

三、MMLU

[2009.03300] Measuring Massive Multitask Language Understanding 评估集是为了衡量文本模型的多任务准确性,其涵盖涵盖人文科学(humanitities)、社会科学(social science)、自然科学(hard sciences)等领域的 57 个子任务,比如小学数学、美国历史、计算机科学、法律等。题目都是多项选择题,通过测试语言模型在不同领域的知识和推理能力来评估其综合性能。

与其他语言理解评估集(如 GLUE、SuperGLUE 等)相比,MMLU 的任务种类更多,覆盖面更广,能够更加全面地评估大规模语言模型的能力。这使得 MMLU 成为当前评估大规模预训练语言模型的一个重要工具。几乎每个 LLM 都会评估并对比其在 MMLU 基准上的能力,而且绝大部分都是评估 5-shot 能力,少量模型会评估 5-shot+CoT 能力,比如 The Claude 3 Model Family: Opus, Sonnet, Haiku。

MMLU 指标相对比较统一,基本不会有太多歧义。然而,在 Massive Multitask Language Understanding (MMLU) on HELM 中,作者发现很多模型声称的 MMLU 指标和 Helm 中评估出来的有较大差距,如下图所示:

图片

四、GSM-8K

各种模型基本都会提供 GSM-8K 评估结果,但对应的评估结果比较混乱。比如,有些是 0-shot+CoT 结果,有些是 8-shot+CoT,有些是 5-shot+CoT,甚至有些是 11-shot。Google Gemini([2403.05530] Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context) 之前被吐槽的一个点就是拿 GSM-8K 11-shot 的结果和其他模型 8-shot,5-shot 的结果对比。

如下图所示为 GPT-4([2303.08774] GPT-4 Technical Report)中的关键结果,可以看出其 GSM-8K 的 92.0 为 5-shot+CoT 的结果,而 GPT-3.5 的 57.1 为 5-shot 的结果:

图片

如下图所示为阿里的通义千问 Qwen1.5 介绍 | Qwen 中的官方评估结果,其并没有具体介绍 GSM8K 是 5-shot 还是 8-shot(不过从其开源的评估工具可以看出是 8-shot+CoT 的结果,具体可以参考 https://github.com/QwenLM/Qwen/blob/main/eval/gsm8k_prompt.txt),但是对应的结果中 GPT-4 的 92.0 为 5-shot+CoT 结果,Mixtral-8x7B 的 74.4 确实为 8-shot+CoT 结果。

图片

实际上 Mixtral 官方提供了相应 5-shot 和 8-shot 的结果,如下图 Figure 4 所示(Cheaper, Better, Faster, Stronger | Mistral AI | Frontier AI in your hands)其 Mixtral 8x7B 的 5-shot 结果只有 58.4:

图片

如下图 Table 3 所示,零一万物的 Yi 模型([2403.04652] Yi: Open Foundation Models by 01.AI)也存在同样的情况,论文中介绍的是 GSM-8K 的 8-shot 结果,但是 GPT-3.5 和 GPT-4 的是 5-shot 的结果。此外 Mistral 7B 的 GSM-8K 和 MATH 结果也比上图中 Mistral 的官方结果或者 [2310.06825] Mistral 7B 论文中的结果要低。

图片

在浪潮的源 2.0-M32 [2405.17976] Yuan 2.0-M32: Mixture of Experts with Attention Router 中作者同样将 8-shot 的 GSM-8K 结果与 5-shot 的 Mixtral-8x7B,Mixtral-8x22B 进行比较,实际上两个模型对应的 8-shot 应该为 74.4 和 88.4:

图片

五、MATH

MATH 的评估相对比较统一,基本上都是 4-shot 的结果,但是 GPT-4o,GPT-4T 相关结果都是 0-shot 的,具体也可以参考 OpenAI 的评估脚本 GitHub - openai/simple-evals,此外 Claude 3 同时提供了 0-shot 和 4-shot 结果,如下图所示:

图片

六、GPQA

[2311.12022] GPQA: A Graduate-Level Google-Proof Q&A Benchmark 是一个比较新的评估集,是由生物、物理和化学领域的专家编写的多项选择题,问题的质量高且难度大。其全集 full(extended) 包含 546 个问题,main 和 diamond 是对应的两个子集,分别包含 448 和 198 个问题。如下图 Table 6 所示为作者针对 LLaMA-2-70B-Chat、GPT-3.5 和 GPT-4 的评估结果,可以看出,其也包含了 0-shot,0-shot+CoT,以及 few-shot+CoT 的配置:

图片

在 Meta 的 LLaMA-3 meta-llama/Meta-Llama-3-70B · Hugging Face 中,作者并未特别说明使用的哪个集合,只介绍其为 GPQA(0-shot),不过在 llama3/eval_details.md at main 中提到是 Main 集合,并且没有说明使用 CoT,如下图所示:

图片

在 The Claude 3 Model Family: Opus, Sonnet, Haiku 中,作者给出了 Claude 3 在 3 个集合上详细的评估结果:

图片

在 Gemini Pro - Google DeepMind 中,Google Gemini 提供了 main 集合下的评估结果:

图片

在阿里的通义千问 Qwen1.5-110B:Qwen1.5系列的首个千亿参数开源模型| Qwen 中同样没有介绍 GPQA 对应的集合,甚至未介绍是否是 0-shot:

图片

七、HumanEval&BBH&HellaSwag&ARC-C&DROP

如下的几个指标相对比较统一,各个模型基本也都有相应的结果,如下图所示:

  • HumanEval 通常都是采用 0-shot 评估
  • BIG-Bench Hard(BBH)通常采用 3-shot+CoT 评估
  • HellaSwag 通常采用 10-shot 评估
  • ARC-C 通常采用 25-shot 评估
  • DROP 通常采用 3-shot 评估

图片

八、AlpacaEval 2.0

AlpacaEval 2.0 是一个指令遵循评估,它利用 LLM 来评估生成质量。在 AlpacaEval 中,会倾向于生成较长输出的模型。因此,在 AlpacaEval 2.0 中,作者引入了长度控制(Length-Controlled AlpacaEval),来缓解这种偏好。对应的论文为:[2404.04475] Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators。对应的 Leaderboard 为:AlpacaEval Leaderboard。

图片

九、LMSYS Chatbot Arena

国外社区经常会使用 Chatbot Arena(LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys)来评估 LLM 的能力。其相当于大模型的竞技场,都是通过真实用户打分结果来评估人类对模型的偏好,其更接近真实用户场景,也更加客观。对应的论文为:[2403.04132] Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference。这也是“零一万物 Yi-Large 在 LMSYS 中文榜单排名第一”的来源,如下图所示为按照 Arena Elo 排序的结果(截止 2024-06-01):

图片

在 Chatbot Arena 中也提供了 MT-bench 和 MMLU 的相关指标,如下图所示为按照 MT-bench 排序的结果:

图片

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

<think>嗯,用户问的是关于替换基模型以提升性能的问题。首先,我需要明确基模型是什么,可能是指机器学习中的基础模型,比如预训练的语言模型或者图像模型。替换基模型通常是为了在特定任务上获得更好的效果,比如更高的准确率、更快的推理速度或者更小的资源消耗。 接下来,我应该考虑用户可能的场景。用户可能已经有一个现有的模型,但发现性能不够,想要替换更好的基模型。可能的应用领域包括NLP、CV或者其他AI任务。比如在NLP中,可能想从BERT换到更先进的模型,如RoBERTa、GPT-3或者更轻量级的ALBERT。在CV中,可能想从ResNet换到EfficientNet或者Vision Transformer。 然后需要考虑用户的需求。用户提到“更好性能”,这可能包括准确率提升、计算效率(更快的推理速度)、内存占用减少,或者模型更小适合部署在移动设备上。同时,用户可能希望保持接口兼容,或者愿意调整代码以适应新模型。 接着,我需要分析替换基模型的步骤。首先,确定当前基模型的瓶颈在哪里,是准确率不够,还是速度太慢,或者内存占用太高。然后,根据需求选择候选模型。例如,如果追求速度,可以考虑轻量级模型如MobileNet、DistilBERT;如果追求准确率,可能需要更大的模型,但要注意计算资源是否足够。 然后,可能需要考虑预训练和微调。新模型是否需要在自己的数据集上重新微调,或者是否有现成的预训练权重可用。此外,模型的结构差异,比如输入输出的维度是否兼容,是否需要调整下游任务的层结构。 还要考虑实际部署的问题,比如框架的支持情况。例如,从TensorFlow换到PyTorch可能需要更多代码改动,或者使用ONNX格式转换模型。此外,社区支持和文档是否完善,遇到问题是否容易找到解决方案。 可能还需要评估替换后的性能提升是否显著,是否值得投入时间和资源进行替换。可以通过基准测试,在验证集上比较新旧模型的指标,同时监控推理时间和资源使用情况。 另外,还要注意模型的可解释性和鲁棒性,尤其是在敏感应用中,新模型是否更容易解释,或者对对抗样本的抵抗力是否更强。 最后,可能需要考虑长期维护和更新。新模型是否有持续的更新和支持,或者是否可能很快被更先进的模型取代,导致再次需要替换。 总结来说,替换基模型需要明确需求,选择合适的候选模型,进行详细的评估和测试,确保兼容性和性能提升,同时考虑维护和资源成本。</think>替换基模型以提升性能通常涉及以下步骤和考量,按优先级分步说明如下: --- ### **1. 明确性能优化目标** | 目标类型 | 典型需求场景 | 候选模型方向 | |------------------|-----------------------------------|-------------------------| | **精度优先** | 科研论文、竞赛、高精度生产环境 | GPT-4、PaLM-2、Swin Transformer V2 | | **速度/轻量化** | 移动端/边缘计算、实时系统 | MobileNetV3、DistilBERT、TinyLlama | | **多模态能力** | 图文跨模态任务 | CLIP、Flamingo、KOSMOS-2 | | **领域适配性** | 医疗/法律/金融等专业领域 | BioBERT、FinGPT、LegalBERT | --- ### **2. 核心评估指标矩阵** ```markdown | 评估维度 | 量化指标 | 测量工具 | |----------------|-----------------------------------|----------------------------| | 任务准确率 | F1-score/ROUGE/BLEU | HuggingFace Evaluate | | 推理速度 | QPS(每秒查询数) | Triton Inference Server | | 显存占用 | GPU Memory Usage (MB) | NVIDIA-smi / PyTorch Profiler | | 训练效率 | 收敛所需epoch数 | MLflow Tracking | | 部署兼容性 | ONNX/TensorRT支持度 | ONNX Runtime Analyzer | ``` --- ### **3. 热门基模型替换路线图** **NLP领域演进路径:** ``` BERT → RoBERTa (2019) → DeBERTa (2020) → T5 (2020) → GPT-3 (2020) → LLaMA (2023) → Mixtral 8x7B (2024) ``` **关键升级点:** - 位置编码:绝对位置 → 相对位置 → RoPE (Rotary Position Embedding) - 注意力机制:Full Attention → Sparse Attention → FlashAttention-2 - 架构创新:Encoder-only → Encoder-Decoder → Decoder-only → Mixture-of-Experts --- ### **4. 实战替换checklist** 1. **输入输出兼容性验证** - 检查tokenizer词汇表覆盖度(CLS100指标) - 验证hidden_states维度匹配度(如768d→1024d需适配下游层) 2. **量化部署测试** ```python # 典型量化方案对比 model = AutoModel.from_pretrained("meta-llama/Llama-2-7b") quant_options = { &#39;8bit&#39;: {&#39;load_in_8bit&#39;: True}, # LLM.int8() &#39;4bit&#39;: {&#39;load_in_4bit&#39;: True}, # QLoRA &#39;GPTQ&#39;: {&#39;quantization_config&#39;: GPTQConfig(bits=4)} } ``` 3. **领域自适应策略** - 继续预训练:使用领域语料进行MLM训练 - 参数高效微调:LoRA(低秩适配) vs Adapter - 知识注入:Retro-Enhanced架构 --- ### **5. 2024年前沿替代方案** | 模型类型 | 推荐模型 | 显著优势 | |----------------|-----------------------------------|-----------------------------| | **大语言模型** | DeepSeek-R1 | 长上下文(128k tokens)支持 | | **多模态模型** | InternVL-1.5 | 中文多模态SOTA | | **轻量级模型** | Microsoft Phi-3-mini | 3.8B参数媲美7B模型性能 | | **代码模型** | CodeLlama-70B | 100k上下文代码补全 | --- ### **6. 替换风险控制** - **灾难性遗忘**:采用EWC(Elastic Weight Consolidation)算法保留关键权重 - **性能回退**:建立A/B测试框架,监
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值