transformers 实现多卡推理

最新推荐文章于 2025-01-02 23:23:16 发布

qq_41560297

最新推荐文章于 2025-01-02 23:23:16 发布

阅读量4.2k

点赞数 3

文章标签：深度学习 pytorch 人工智能

本文链接：https://blog.youkuaiyun.com/qq_41560297/article/details/131643048

版权

import os

import platform

import signal

from transformers import AutoTokenizer, AutoModel,AutoModelForCausalLM

import readline

import torch.nn as nn

# os.environ["CUDA_VISIBLE_DEVICES"] = '1'

max_memory_mapping = {0 : "10GB", 1 :"11GB"}

tokenizer = AutoTokenizer.from_pretrained('your_model_path', trust_remote_code=True)

model = AutoModel.from_pretrained("your_model_path",

device_map= 'auto',

load_in_8bit = False,

max_memory = max_memory_mapping,

trust_remote_code=True).half().cuda()

model = model.eval()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_41560297

关注关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【人工智能】结合代码通俗讲解 Transformer 推理性能优化技术：KV Cache

AI天才研究院

05-26

2万+

KV Cache是Transformer推理性能优化的一项重要工程化技术，各大推理框架都已实现并将其进行了封装（例如 transformers库 generate 函数已经将其封装，用户不需要手动传入past_key_values）并默认开启（config.json文件中use_cache=True）。本文尝试打开封装分析该技术内部实现，希望对大家有所帮助，文中如有纰漏，欢迎指正。作者：Young。

transformers` 库，`device_map` 参数有哪些可选：sequential，cpu、cuda:0

最新发布

ZJQ的博客

04-12

transformers` 库，`device_map` 参数有哪些可选：sequential，cpu、cuda:0

2 条评论您还未登录，请先登录后发表或查看评论

【大模型】Transformers库单机多卡推理之device_map

酒酿小圆子呀～

07-17

1万+

Hugging Face的库支持自动模型（AutoModel）的模型实例化方法，来自动载入并使用GPT、ChatGLM等模型。在方法中的device_map参数，可实现单机多卡推理。

【AI大模型】Transformers大模型库（七）：单机多卡推理之device_map

人工智能领域博客

06-11

1万+

本文简要介绍了device_map="auto"等使用方法，多数情况下与CUDA_VISIBLE_DEVICES=1,2,3一起使用，可以简单高效的进行多卡分布式推理及训练计算，至于多机多卡场景，多用torchrun和deepspeed等，后面文章会专门进行系统讲解。

transformers的单卡推理与多卡推理

m0_59792363的博客

07-16

1252

Transformers多机多卡的炼丹实践

nghuyong的博客

01-28

5826

前言随着预训练语言模型的快速发展，很多问题可以通过堆数据和堆模型参数简单粗暴的有效解决。所以亲自训练一个大模型一定是每个NLPer都想尝试的事，这时候就需要进行多机多卡的分布式训练了。本文是一篇踩坑后的总结，介绍如何基于huggingface的transformers库来快速实现。注意：本文仅涉及数据并行，而不涉及模型并行。所以参考本文可以自己从零训练一个bert，bert-large等，但想训练...

单机多卡训练swin transformer

qq_41888086的博客

07-09

1109

多卡训练swin transformer

多机多卡推理部署大模型

NLP与推荐算法

06-20

4712

python多机多卡推理部署大模型

（六）关于InternVL2的单卡、多卡推理

昆兰.沃斯的博客

10-29

619

以InternVL2作为基础，介绍多模态大模型的训练、推理以及其它相关知识

DeepSeek-V2-Chat多卡推理(不考虑性能)

Hi20240217的博客

06-12

1362

本文演示了如何使用accelerate推理DeepSeek-V2-Chat(裁剪以后的模型,仅演示如何将权值拆到多卡)

本文基于DeepSeek-V2-Chat多卡推理,演示了几种不同的Profing方法

Hi20240217的博客

06-13

1万+

本文基于DeepSeek-V2-Chat多卡推理,演示了几种不同的Profing方法。

ollama 多卡推理

03-14

上述脚本展示了怎样加载预训练好的因果语言模型实例并通过 `torch.nn.DataParallel` 来启用多卡加速功能。需要注意的是实际项目开发过程中可能还需要考虑更多细节比如梯度累积策略或者混合精度训练等等额外技巧...

transformers 训练

weixin_38241876的博客

11-19

586

from transformers import BertForSequenceClassification import torch model = BertForSequenceClassification.from_pretrained('bert-base-uncased', return_dict=True) model.train() from transformers import AdamW no_decay = ['bias', 'LayerNorm.weight'] optimizer.

利用多GPU，推理transformer模型，避免显存溢出

h12321hzhy的专栏

01-02

755

transformers框架提供了多设备load模型的方式，通过设置device_map，让模型均匀的分布在多卡，从而以类模型并行的方式，比如用上4-6个8g-24g显存的设备就可以跑起来70B， moe， vl这些。像llama系列和MOE系列还好，可以借助deepseed等加速框架对齐进行TP切分，从而达到多卡切分参数的效果，但是像VL系列，TP等策略就不太好使了。最终，笔者利用4个32G的设备，成功推理了GLM-4V的模型，每个仅用了30%的显存。在一些模型参数量比较大的llm和多模态网络中，比如。

多张卡部署一个codellama实例

liuzhenghua66的博客

02-18

2237

在深度学习中，模型通常由多个层（或称为模块）组成，每个层执行特定的功能，并且它们以一种有序的方式连接在一起，构成了整个模型。不同类型的模型可能由不同种类的层组成，每个层都有其特定的功能和作用。：注意力层用于处理序列数据或序列-序列数据，能够动态地计算输入序列中各个位置的重要性，并将注意力权重应用于相应的位置。：输出层负责生成模型的最终输出，通常根据任务的不同，输出层可能采用不同的激活函数和损失函数。：全连接层通常位于神经网络的最后几层，用于将模型提取的特征映射到最终的输出空间。

利用device_map实现多卡训练：model = AutoModelForCausalLM.from_pretrained(model_name, device_map=‘auto‘)【取代DP】

u013250861的博客

03-06

3339

【代码】利用device_map实现多卡训练：model = AutoModelForCausalLM.from_pretrained(model_name, device_map='auto')【取代DP】

Transformers量化模型加速推理 —— 以CodeLlama-34b-Instruct-hf为例

行步至春深

10-24

1494

推理速度接近量化前的两倍。占用最高显存约为量化前的四分之一。

只用两行代码，我让Transformer推理加速了10倍

算法码上来

07-23

858

最近有学妹问我，我训了一个Transformer模型，但是预测好慢啊，有啥解决方案吗？我心想，你又想好，又想快，咋不上天呢？于是我跟她说，你可以试试lightseq啊，跟闪电⚡️一样快，用了你就可以上天了。她一脸懵比，lightseq是啥玩意儿啊？咋就能让我的模型起飞 ️了呢？我跟她说，你不需要知道太多细节，你只需要知道它是一个Transformer系列模型推理加速库就行了。她还是一脸疑惑，那用...

qwen大模型，推理速度慢，单卡/双卡速度慢，flash-attention安装，解决方案