在ROCm平台上运行Hugging Face模型的完整指南

最新推荐文章于 2025-06-08 09:03:22 发布

武允倩

最新推荐文章于 2025-06-08 09:03:22 发布

阅读量326

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00049/article/details/148505777

在ROCm平台上运行Hugging Face模型的完整指南

ROCm AMD ROCm™ Software - GitHub Home 项目地址: https://gitcode.com/gh_mirrors/ro/ROCm

前言

随着大语言模型(LLM)和各类AI模型的快速发展，Hugging Face已成为AI开发者获取和共享模型的首选平台。本文将详细介绍如何在AMD GPU和计算加速设备上，利用ROCm软件栈高效运行Hugging Face上的各类模型。

基础环境准备

安装Hugging Face Transformers

首先需要安装Hugging Face的核心库Transformers：

pip install transformers

这个库提供了简单易用的API，可以轻松加载和使用各类预训练模型。

基本模型使用示例

以下是一个使用GPT-2模型的简单示例：

from transformers import GPT2Tokenizer, GPT2Model

# 加载分词器和模型
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2Model.from_pretrained('gpt2')

# 处理输入文本
text = "这是一个测试文本"
encoded_input = tokenizer(text, return_tensors='pt')

# 获取模型输出
output = model(**encoded_input)

主流模型推荐

Hugging Face上有大量经过验证的主流模型可以直接在ROCm平台上运行，包括但不限于：

BERT系列模型：适用于各类NLP任务
BLOOM：大规模多语言模型
Llama系列：Meta开源的LLM模型
OPT：Facebook开源的类GPT模型
T5：文本到文本转换模型

这些基础模型的衍生版本通常也能在ROCm平台上良好运行。

使用Optimum-AMD优化性能

安装Optimum-AMD

Optimum-AMD是Hugging Face与ROCm软件栈之间的桥梁，提供了多种优化功能：

pip install --upgrade --upgrade-strategy eager optimum[amd]

主要功能特性

Flash Attention 2支持：显著提升注意力机制的计算效率
GPTQ量化：实现模型的高效量化部署
ONNX Runtime集成：提供跨平台推理能力

高级功能使用指南

Flash Attention加速

Flash Attention可以大幅提升注意力层的计算效率，使用方法如下：

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("tiiuae/falcon-7b")

with torch.device("cuda"):
    model = AutoModelForCausalLM.from_pretrained(
        "tiiuae/falcon-7b",
        torch_dtype=torch.float16,
        use_flash_attention_2=True  # 启用Flash Attention
    )

GPTQ量化部署

GPTQ是一种高效的模型量化方法，可以显著减少模型内存占用：

首先安装AutoGPTQ：

pip install auto-gptq --no-build-isolation --extra-index-url [ROCm专用wheel地址]

加载量化模型：

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("TheBloke/Llama-2-7B-Chat-GPTQ")

with torch.device("cuda"):
    model = AutoModelForCausalLM.from_pretrained(
        "TheBloke/Llama-2-7B-Chat-GPTQ",
        torch_dtype=torch.float16
    )

ONNX Runtime集成

ONNX Runtime提供了跨平台的模型推理能力，ROCm平台上有专门的执行提供者：

from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer

# 创建ONNX Runtime会话选项
session_options = ort.SessionOptions()
session_options.log_severity_level = 0

# 加载ONNX模型
ort_model = ORTModelForSequenceClassification.from_pretrained(
    "distilbert-base-uncased-finetuned-sst-2-english",
    export=True,
    provider="ROCMExecutionProvider",  # 指定ROCm执行提供者
    session_options=session_options
)

# 创建推理管道
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
pipe = pipeline(task="text-classification", model=ort_model, tokenizer=tokenizer, device="cuda:0")

# 执行推理
result = pipe("这部电影的视觉效果和配乐都非常出色")