告别「文生图」显存焦虑

部署运行你感兴趣的模型镜像

图片

Flux 模型今年发布之后,带来了文生图的一次升级,图像生成的质量效果飞跃提升。

但 Flux 对显存提出了要求。Flux.1 拥有高达12B的训练参数。FLUX.1 [dev] 和 FLUX.1 [schnell]两个版本官方原配模型大小为 23.8GB,需要至少 24GB 的显卡才能顺利运行。不过得益于FP8的支持,经过优化之后模型体积可缩减至 11.9GB,不过跑起来也至少需要 16GB 显存的显卡。

无论是模型训练,还是生图过程,batch size 等参数的调整都会直接影响显存要求。赞奇工程师团队近期对如下应用场景的高 batch size 情形进行了测试:

  • Flux.1-dev Lora 训练

  • Flux.1-dev FP16 训练

  • Flux.1-dev FP8 训练

  • Flux.1 生图

  • SDXL 生图

  • Stable Diffusion 1.5 生图

显卡选择

NVIDIA RTX™ 5000 Ada 及 NVIDIA RTX™ 5880 Ada 分别拥有32GB48GB的高显存,能够很好地支持文生图模型训练以及 AIGC 生图。我们选用这两款显卡进行测试。

图片

 NVIDIA RTX™ 5880 Ada  图片来源于 NVIDIA

图片

NVIDIA RTX™ 5000 Ada  图片来源于 NVIDIA

测试结果总览

图片

接下来我们看看具体测试情况:

Flux.1-dev Lora 训练

我们用单张 NVIDIA RTX 5000 Ada(32GB 显存)进行了Flux Lora 训练的测试。测试用例中尺寸设置512*512,batch size为 6,学习率0.00005,步数为3000时,GPU显存占用约30GB,显卡利用率100%

测试用例:

1、本地工作站配置

  • GPU:NVIDIA RTX 5000 Ada (32GB) *1

  • CPU: Intel i5-12600KF (3.7GHz) *1

  • 内存:64GB

  • 系统:win 11

2、训练包版本

图片

3、训练参数:

  • 数据集:帽子图片与抠脸人物图

  • ComfyUI工作流

  • 学习率:0.00005

  • 分辨率:512*512

  • Batch Size:6

  • dim:16

  • alpha: 8

  • 步数:3000

其他全部为ComfyUI插件默认参数

* 训练数据集可与下方助手联系获取

4、训练成果

图片

Flux.1-dev FP16 训练

我们采用单张 NVIDIA RTX 5880 Ada(48GB)开展测试。测试用例中尺寸512*512,batch size为 6,学习率0.0003,步数设置10000时,显卡显存占用约35GB,显卡利用率到 93%,共耗时20小时15分,迭代一步约7.3秒。

测试用例:

1、本地工作站配置

  • GPU:NVIDIA RTX 5880 Ada (48GB) *1

  • CPU: Intel i5-12600KF (3.7GHz) *1

  • 内存:64GB

  • 系统:win 11

2、训练参数

  • Flux models:

  • transformer: flux1-dev.safetensors

  • vae: ae.safetensors

  • clip_l: clip_l.safetensors

  • t5: t5xxl_fp16.safetensors

  • unetLR: 0.0003

  • networkDim: 16

  • 1rScheduler: cosine_with_restarts

  • targetSteps: 10000

  • networkAlpha: 2

  • optimizerType: AdamW8Bit

  • batch size:6

  • dataset size: 512*512

  • 数据集:207张

* 详细工作流可详询下方助手

3、训练成果:

原图:

训练结果图(部分):

图片

图片

图片

图片

图片

Flux.1-dev FP8 训练

我们继续用单张 NVIDIA RTX 5880 Ada 进行高batch size的模型训练。测试用例中 batch size 设置为11,分辨率512*512,学习率0.001,步数1000时,GPU显存占用约44GB,显卡利用率到97%,共耗时3小时15分,loss 值0.067。

测试用例:

1、本地工作站配置:

与 Flux FP16 训练时相同

2、训练参数:

  • Flux models:

  • transformer: flux1-dev.safetensors

  • vae: ae.safetensors

  • clip_l: clip_l.safetensors

  • t5: t5xxl_fp8.safetensors

  • unetLR: 0.001

  • networkDim: 64

  • 1rScheduler: cosine_with_restarts

  • targetSteps: 1000

  • networkAlpha: 32

  • optimizerType: AdamW8Bit

  • batch size:11

  • dataset size: 512*512

  • 数据集:30张

* 详细工作流可详询下方助手

3、训练成果:

原图:

图片

训练结果图:

图片

Flux.1 文生图

Flux.1 生图测试中,在尺寸1024*1024,采样步数50步的情况下:

Batch size

显存占用

10

24GB

24

31.2GB

50

47GB

1、工作流设置:

图片

2、本地工作站配置:

  • CPU: Intel i5-12600KF (3.7GHz) *1

  • 内存: 64GB

  • 系统: win 11

3、测试情况:

我们选用单张 NVIDIA RTX 5000 Ada (32GB) 显卡测试了 batch size 为24时的情况。测试结果显示,GPU 显存占用 31.2GB,GPU 利用率达99%,项目总耗时约18分钟。

图片

接下来,我们采用单张 NVIDIA RTX 5880 Ada (48GB) 测试了 batch size 为45至50时的情况。测试结果显示:

 batch size 为 45 时,GPU 显存占用 44GB,GPU利用率达 95%,项目测试用时27分钟。

当 batch size 为 50 时,GPU 显存占用 47GB,GPU利用率达 97%,项目测试耗时约35分钟。

图片

SDXL 生图

SDXL生图测试中,在设置尺寸1024*1024,采样步数20步的情况下:

Batch size

显存占用

90

23GB

230

47GB

1、工作流设置:

图片

2、本地工作站配置:同 Flux.1 文生图测试。

3、测试情况:

我们选用单张 NVIDIA RTX 5000 Ada (32GB) 显卡测试了 batch size 为 90 时的情况。测试结果显示,在NVIDIA RTX 5000 Ada 加持下,GPU显存占用约23GB,GPU 利用率 97%,生图时间约10分钟,出图效率非常高。

接下来我们用单张 NVIDIA RTX 5880 Ada (48GB) 显卡测试了 batch size 为230 时的情况,GPU显存占用 47GB,GPU 利用率 99%,生图时间约22分钟。

图片

Stable Diffusion 1.5 生图

Stable Diffusion 1.5 生图测试中,模型选用 AWPainting_v1.5.safetensors,尺寸1024*1024,采样步数20步的情况下:

Batch size

显存占用

90

23GB

95

30GB

150

46GB

1、工作流设置:

图片

2、本地工作站配置:同Flux.1 文生图测试。

3、测试情况:

我们选用单张 NVIDIA RTX 5000 Ada (32GB) 显卡测试了 batch size 为 90 时的情况。测试结果显示,GPU显存占用约 23GB,GPU利用率100%,生图时间约10分钟,效率极高;batch size 为 95 时,显卡显存占用至 30GB,GPU利用率 99%

我们采用单张 NVIDIA RTX 5880 Ada (48GB) 显卡测试 batch size 为 150 的情况。结果显示,GPU显存约占 46GB,显卡利用率 96%,生图时间仅6分钟,出图效率非常高。

图片

搭载超强显卡 告别显存焦虑

NVIDIA RTX 5000 Ada 与 NVIDIA RTX 5880 Ada 均具备超高显存,在高 batch size 场景下能将生产力拉满,妥妥地甩开显存焦虑!

如想体验超强显卡的童鞋也可随时申请、免费体验:AI 工作站申请测试

图片

显卡规格

* 如想了解更详细的测试情况可添加微信助手:XSuperZoneTech

图片

您可能感兴趣的与本文相关的镜像

FLUX.1-dev

FLUX.1-dev

图片生成
FLUX

FLUX.1-dev 是一个由 Black Forest Labs 创立的开源 AI 图像生成模型版本,它以其高质量和类似照片的真实感而闻名,并且比其他模型更有效率

### 使用 Coze 工具实现文本到像的批处理操作 要通过 Coze 实现文本到像的批量生成,需结合其支持的基础功能以及可能涉及的大模型能力。以下是具体方法: #### 功能需求分析 Coze 的核心优势在于能够与其他大模型协同完成复杂任务[^2]。然而,在当前描述的功能列表中并未提及直接支持文生的能力[^1]。因此,需要借助外部具备该功能的大模型(如 Stable Diffusion 或其他视觉生成模型)。此过程可以通过以下方式实现。 #### 技术路径设计 假设目标是基于一组输入文本生成对应的片文件,则可采用如下方案: 1. **准备数据源** 将待转换的文字内容存储于 Excel 表格或 CSV 文件中以便统一管理。 2. **集成第三方 API** 如果 Coze 自身未提供内置接口来访问文生服务,则可通过 HTTP 请求调用相关服务商提供的 RESTful 接口或者 SDK 完成交互。例如 OpenAI DALL·E、Stability AI 等均开放了此类资源供开发者利用[^3]。 3. **编写脚本逻辑** 下面展示一段 Python 脚本来演示整个流程的核心部分: ```python import requests from pandas import read_csv def generate_image(prompt, api_key): url = 'https://example.com/api/generate' # 替换为目标平台的实际地址 headers = {'Authorization': f'Bearer {api_key}'} payload = {"text": prompt} response = requests.post(url, json=payload, headers=headers) if response.status_code == 200: image_data = response.content with open(f"{prompt[:8]}_output.png", "wb") as img_file: # 截取前八个字符作为文件名的一部分以防过长 img_file.write(image_data) if __name__ == "__main__": df = read_csv('prompts.csv') # 假设每行代表一条独立记录 key = '<your_api_token>' # 用户自行申请并填入 for index, row in df.iterrows(): try: generate_image(row['description'], key) except Exception as e: print(f"Error occurred while processing record #{index}: ", str(e)) ``` 上述代码片段实现了读取本地 CSV 数据集中的字段值并通过指定算法创建相应形对象保存至硬盘的操作。 #### 注意事项 - 需确认所选框架是否允许大规模并发请求以免触发限流机制; - 对敏感信息做好加密保护措施防止泄露风险发生; - 根据实际应用场景调整超参配置提升效率效果平衡点。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值