
LLaMA基准系列
文章平均质量分 88
LLaMA基准系列
DoYangTan
双非保研至浙大
HBU-->ZJU
展开
-
LLaMA基准系列—Orca
Orca 由微软团队提出,目标是提升小型语言模型(如 7B 级别)在推理任务中的表现。它的核心思想是通过模仿大型模型(如 GPT-4)来增强推理能力。主要特点:基于 LLaMA 进行训练,但优化了推理能力、数学计算、多步思维。采用增强监督微调(STaR,Step-by-Step Thought Process),让模型更善于类比推理。更小的参数量(7B 级别),但能在许多任务上达到接近 GPT-4 的效果。原创 2025-03-01 11:41:12 · 823 阅读 · 0 评论 -
LLaMA基准系列—ExLLaMA
ExLLaMA 由社区开发,主要用于LLaMA 系列模型的高效推理。它基于CUDA 和 PyTorch 进行了优化,可以在低显存设备上运行更大规模的模型。主要特点:显存占用优化:相比传统 PyTorch 推理,ExLLaMA大幅降低显存需求。加速推理:使用Flash Attention 和高效 CUDA 内核,使推理更快。兼容 LLaMA 权重:支持及其变体。轻量化部署:适用于消费级 GPU(如 RTX 3090/4090)。原创 2025-03-01 11:42:37 · 592 阅读 · 0 评论 -
LLaMA基准系列—Baichuan2
Baichuan2 由百川智能(Baichuan Intelligence)开发,是 Baichuan1 的升级版本。该系列模型针对中文理解、多轮对话、代码生成、数学推理进行了优化,并在多个基准测试上超越了 LLaMA2。Baichuan2 主要版本Baichuan2 提供了7B和13B两个版本,均支持中英文双语任务。版本参数量训练数据主要优化7B3T 以上高质量数据强化中文、多轮对话13B3T 以上高质量数据提升推理、代码能力相比 LLaMA2,Baichuan2 在。原创 2025-03-01 11:39:55 · 773 阅读 · 0 评论 -
LLaMA基准系列—Alpaca
是斯坦福大学基于训练的版本。Alpaca 仅使用,就成功让。本篇文章将介绍,并提供代码示例,帮助大家快速上手。原创 2025-03-01 11:37:02 · 476 阅读 · 0 评论 -
LLaMA基准系列—Lit-LLaMA
Lit-LLaMA是由Meta AI团队发布的LLaMA系列模型的开源实现。Lit-LLaMA旨在提供一种更加灵活和高效的方式来训练和评估LLaMA模型,同时支持更多的自定义操作。Lit-LLaMA框架是建立在流行的PyTorch和Hugging Face Transformers库之上的,它提供了强大的功能和易用性,适合研究人员和开发者在各种任务中使用。Lit-LLaMA为LLaMA模型提供了一个高效、灵活的训练和评估框架。原创 2025-03-01 11:45:07 · 535 阅读 · 0 评论 -
LLaMA基准系列—Mistral 7B
Mistral 7B 是一个语言模型,具有70 亿参数,但凭借优化的架构设计,它在推理效率和性能上远超同等规模的模型。Mistral 7B 的主要特点开源免费,可商用,模型权重可直接下载。与 LLaMA 2 兼容,可以无缝替换 LLaMA 2-7B。基于 Grouped-Query Attention (GQA),推理速度更快。,支持更长的上下文窗口。原创 2025-03-01 11:35:25 · 520 阅读 · 0 评论 -
LLaMA基准系列—LLaMA 1
LLaMA(Large Language Model Meta AI)是 Meta(原 Facebook)于 2023 年推出的一系列语言模型。LLaMA 1 作为初代版本,凭借和,在开源社区引发了广泛关注。本文将深入探讨 LLaMA 1 的背景、架构、性能以及如何在本地运行。原创 2025-03-01 11:31:01 · 781 阅读 · 0 评论 -
LLaMA基准系列—WizardLM
是一个基于进行深度优化的模型。与 Alpaca 不同,WizardLM方法,使模型具备更强的推理能力和更复杂的对话能力。本篇文章将介绍 WizardLM 的,并提供代码示例,帮助大家快速上手。原创 2025-03-01 11:38:36 · 746 阅读 · 0 评论