【限时免费】有手就会！Florence-2-large-ft模型本地部署与首次推理全流程实战-优快云博客

有手就会！Florence-2-large-ft模型本地部署与首次推理全流程实战

【免费下载链接】Florence-2-large-ft 项目地址: https://ai.gitcode.com/mirrors/Microsoft/Florence-2-large-ft

写在前面：硬件门槛

在开始之前，请确保你的设备满足以下最低硬件要求：

推理（Inference）：至少需要一块支持CUDA的NVIDIA显卡（如RTX 2080及以上），显存建议不低于8GB。
微调（Fine-tuning）：需要更高配置的显卡（如A100或V100），显存建议不低于16GB。

如果你的设备不满足这些要求，可能会在运行过程中遇到性能问题或无法完成推理任务。

环境准备清单

在开始部署Florence-2-large-ft模型之前，你需要准备好以下环境：

Python 3.8或更高版本：确保你的系统中安装了Python 3.8及以上版本。
CUDA和cuDNN：如果你的设备支持NVIDIA显卡，请安装对应版本的CUDA和cuDNN。
PyTorch：安装支持CUDA的PyTorch版本。
Transformers库：Hugging Face的Transformers库是运行Florence-2-large-ft的必备依赖。

你可以通过以下命令安装必要的Python库：

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118
pip install transformers requests pillow

模型资源获取

Florence-2-large-ft是一个预训练好的模型，你可以直接从官方提供的资源中获取。以下是获取模型的步骤：

确保你的设备可以访问互联网。
使用transformers库提供的from_pretrained方法直接下载模型。

逐行解析“Hello World”代码

以下是从官方文档中提取的“快速上手”代码片段，我们将逐行解析其功能：

import requests
from PIL import Image
from transformers import AutoProcessor, AutoModelForCausalLM
import torch

# 检查是否支持CUDA，并设置设备类型和数据精度
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

# 加载模型和处理器
model = AutoModelForCausalLM.from_pretrained("microsoft/Florence-2-large-ft", torch_dtype=torch_dtype, trust_remote_code=True).to(device)
processor = AutoProcessor.from_pretrained("microsoft/Florence-2-large-ft", trust_remote_code=True)

# 设置任务提示符（这里以对象检测为例）
prompt = "<OD>"

# 加载示例图片
url = "https://example.com/car.jpg"  # 替换为实际图片URL
image = Image.open(requests.get(url, stream=True).raw)

# 预处理输入数据
inputs = processor(text=prompt, images=image, return_tensors="pt").to(device, torch_dtype)

# 生成模型输出
generated_ids = model.generate(
    input_ids=inputs["input_ids"],
    pixel_values=inputs["pixel_values"],
    max_new_tokens=1024,
    do_sample=False,
    num_beams=3
)

# 解码输出结果
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]

# 解析任务结果
parsed_answer = processor.post_process_generation(generated_text, task="<OD>", image_size=(image.width, image.height))

# 打印结果
print(parsed_answer)

代码解析：

设备与精度设置：根据是否支持CUDA选择设备类型和数据精度（float16或float32）。
模型加载：使用AutoModelForCausalLM加载模型，AutoProcessor加载处理器。
任务提示符：prompt变量定义了模型的任务类型（如<OD>表示对象检测）。
图片加载：通过requests库从URL加载图片，并使用PIL库打开。
数据预处理：processor将文本和图片转换为模型可接受的输入格式。
生成输出：调用model.generate生成模型的输出。
结果解析：使用processor.post_process_generation解析任务结果。

运行与结果展示

运行上述代码后，你将看到类似以下的结果：

{
    "<OD>": {
        "bboxes": [[x1, y1, x2, y2], ...],
        "labels": ["car", "building", ...]
    }
}

这表示模型成功检测到了图片中的物体及其位置。

常见问题（FAQ）与解决方案

1. 模型加载失败

问题：from_pretrained方法报错。
解决方案：检查网络连接，确保可以访问模型资源。如果网络受限，可以尝试手动下载模型文件并指定本地路径。

2. CUDA内存不足

问题：运行时提示显存不足。
解决方案：降低max_new_tokens的值，或使用更小的模型（如Florence-2-base-ft）。

3. 任务提示符无效

问题：prompt设置错误导致任务失败。
解决方案：确保prompt是支持的任务类型（如<OD>、<CAPTION>等）。