Python LLMs大模型llama的推理代码,半精度推理.half(),占用内存小推理

LLaMa的推理代码 

import torch
from transformers import LlamaForCausalLM, LlamaTokenizer


# 设置设备
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# 加载Llama 2模型和分词器
model_name = "meta-llama/Llama-2-7b-hf"  # 根据需要选择模型
tokenizer = LlamaTokenizer.from_pretrained(model_name)
model = LlamaForCausalLM.from_pretrained(model_name).half().to(device)

# 准备输入数据
input_text = "请写一个关于自然的故事。"  # 你的输入文本
inputs = tokenizer(input_text, return_tensors="pt", max_length=500, truncation=True)

# 将输入数据移动到CUDA设备
inputs = {key: value.to(device) for key, value in inputs.items()}

# 执行推理
with torch.no_grad():  # 禁用梯度计算
    outputs = model.generate(**inputs, max_length=500)

# 处理输出
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

# 打印结果
print(generated_text)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

医学小达人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值