【Stable Diffusion 3.5 FP8】5、Java 集成实战：Stable Diffusion 3.5 FP8 生产级 API 开发

原创于 2025-12-23 07:00:00 发布 · 511 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#stable diffusion #java #python #人工智能 #深度学习 #AI 镜像开发实战 #AI镜像开发

AI前沿技术深析专栏收录该内容

26 篇文章

订阅专栏

AI 镜像开发实战征文活动 8w人浏览 110人参与

部署运行你感兴趣的模型镜像

Java 集成实战：Stable Diffusion 3.5 FP8 生产级 API 开发

在前面的系列文章中，我们已经掌握了 Stable Diffusion 3.5 FP8（以下简称 SD 3.5 FP8）的调优技巧和 LoRA 定制化开发能力。但在企业级应用中，Java 作为主流的后端开发语言，如何将 FP8 模型无缝集成到 Java 生态，实现高可用、高并发的图像生成 API，成为开发者面临的核心工程化问题。

本文将聚焦 Java 与 SD 3.5 FP8 的集成实战，提供两种工业级落地方案：Py4J 快速集成（适合中小规模场景）和 gRPC 服务化部署（适合高并发场景）。每个方案都包含完整的代码实现、流程解析和异常处理，帮助 Java 开发者快速搭建生产级的 AI 图像生成服务。

一、Java 调用 FP8 模型的两种方案对比

Java 本身无法直接加载 PyTorch 模型，需通过跨语言调用方式间接使用 SD 3.5 FP8。以下是两种主流方案的详细对比，帮助你根据业务场景选型：

对比维度	方案 1：Py4J 直接调用	方案 2：gRPC 服务化部署
核心原理	通过 Py4J 桥接，Java 直接调用 Python 对象方法	Python 封装模型为 gRPC 服务，Java 作为客户端调用
开发成本	低（无需额外定义接口，快速落地）	中（需定义 Protobuf 协议，拆分服务端/客户端）
并发性能	低（单进程调用，无法充分利用多核）	高（支持多线程并发，可集群部署）
部署复杂度	低（Java/Python 部署在同一服务器）	中（需部署 gRPC 服务，配置服务发现）
适用场景	中小规模场景、内部工具、快速原型	高并发场景、分布式系统、对外提供 API
跨机器部署	不支持（需同一进程通信）	支持（网络通信，可跨服务器/集群）
容错能力	弱（Python 进程崩溃会直接影响 Java 服务）	强（服务端可集群，支持熔断降级）

核心选型建议：

若你的需求是内部工具、日调用量低于 1000 次，优先选择 Py4J 方案，开发快、部署简单；
若需要对外提供 API、日调用量超过 1 万次，或需分布式部署，选择 gRPC 方案，兼顾性能和扩展性。

为了更直观展示两种方案的架构差异，以下是架构流程图：
在这里插入图片描述

核心选型建议：

若你的需求是内部工具、日调用量低于1000次、快速验证原型，优先选择Py4J方案，开发快、部署简单、维护成本低；
若需要对外提供API服务、日调用量超过1万次、需要分布式部署或高可用性，选择gRPC方案，兼顾性能、扩展性和稳定性。

二、方案 1 实战：Py4J 集成 Python 模型（快速落地）

Py4J 是一款轻量级的跨语言通信工具，允许 Java 程序动态访问 Python 对象的方法和属性，无需复杂的接口定义。该方案适合快速落地，无需改动现有 Java 架构，即可快速集成 SD 3.5 FP8 模型。

1. 环境准备

（1）依赖安装

Python 端：安装 Py4J 和 SD 3.5 FP8 相关依赖

pip install py4j==0.10.9.7 diffusers==0.22.0 torch==2.2.0 transformers==4.37.0

Java 端：添加 Py4J 依赖（Maven 示例）

<dependency>
    <groupId>net.sf.py4j</groupId>
    <artifactId>py4j</artifactId>
    <version>0.10.9.7</version>
</dependency>
<!-- 用于 Base64 编码解码图像 -->
<dependency>
    <groupId>commons-codec</groupId>
    <artifactId>commons-codec</artifactId>
    <version>1.15</version>
</dependency>

（2）环境要求

Java 版本：8 及以上（推荐 11）；
Python 版本：3.10.x（与 SD 3.5 FP8 兼容）；
部署要求：Java 和 Python 必须部署在同一服务器，共享 GPU 资源。

2. Python 端模型封装（提供调用接口）

Python 端需实现两个核心功能：加载 SD 3.5 FP8 模型，通过 Py4J 暴露调用接口，接收 Java 传递的参数（提示词、采样步数等），生成图像后返回 Base64 编码（方便跨语言传输）。

from py4j.java_gateway import JavaGateway, GatewayServer, set_field
from diffusers import StableDiffusion3Pipeline
import torch
from io import BytesIO
import base64
from PIL import Image
import logging

# 配置日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

class SD35FP8Service:
    def __init__(self):
        """初始化 SD 3.5 FP8 模型"""
        logging.info("开始加载 SD 3.5 FP8 模型...")
        try:
            # 加载 FP8 优化模型
            self.pipe = StableDiffusion3Pipeline.from_pretrained(
                "stabilityai/stable-diffusion-3.5",
                torch_dtype=torch.float8_e4m3fn,
                variant="fp8"
            ).to("cuda")
            
            # 启用优化（提升推理速度）
            self.pipe.enable_xformers_memory_efficient_attention()
            self.pipe.enable_vae_slicing()
            
            logging.info("模型加载完成！")
        except Exception as e:
            logging.error(f"模型加载失败：{str(e)}", exc_info=True)
            raise RuntimeError("SD 3.5 FP8 模型初始化失败") from e
    
    def generateImage(self, prompt: str, negativePrompt: str, numInferenceSteps: int, guidanceScale: float, width: int, height: int) -> str:
        """
        生成图像，返回 Base64 编码
        :param prompt: 提示词
        :param negativePrompt: 负提示词
        :param numInferenceSteps: 采样步数
        :param guidanceScale: CFG Scale
        :param width: 图像宽度
        :param height: 图像高度
        :return: 图像 Base64 字符串
        """
        try:
            logging.info(f"接收生成请求：prompt={prompt}, steps={numInferenceSteps}, cfg={guidanceScale}")
            
            # 生成图像
            image = self.pipe(
                prompt=prompt,
                negative_prompt=negativePrompt,
                num_inference_steps=numInferenceSteps,
                guidance_scale=guidanceScale,
                width=width,
                height=height
            ).images[0]
            
            # 将图像转为 Base64
            buffer = BytesIO()
            image.save(buffer, format="PNG", quality=95)
            base64_str = base64.b64encode(buffer.getvalue()).decode("utf-8")
            
            logging.info("图像生成完成，返回 Base64")
            return base64_str
        except torch.cuda.OutOfMemoryError:
            logging.error("显存不足，无法生成图像")
            raise RuntimeError("GPU 显存不足，请降低图像分辨率或减少采样步数")
        except Exception as e:
            logging.error(f"图像生成失败：{str(e)}", exc_info=True)
            raise RuntimeError(f"生成失败：{str(e)}") from e

def main():
    """启动 Py4J 服务，供 Java 调用"""
    # 创建服务实例
    sd_service = SD35FP8Service()
    
    # 启动 Py4J 网关服务（默认端口 25333）
    gateway_server = GatewayServer(sd_service, port=25333)
    logging.info("Py4J 服务启动，端口：25333")
    
    try:
        gateway_server.start()
        gateway_server.join()  # 阻塞进程，保持服务运行
    except KeyboardInterrupt:
        logging.info("服务正在关闭...")
        gateway_server.shutdown()
        logging.info("服务已关闭")
    except Exception as e:
        logging.error(f"服务运行异常：{str(e)}", exc_info=True)
        gateway_server.shutdown()

if __name__ == "__main__":
    main()

3. Java 端调用逻辑实现（参数传递+图像返回）

Java 端通过 Py4J 网关连接 Python 进程，获取 SD35FP8Service 实例，调用 generateImage 方法传递参数，接收 Base64 编码的图像后，可直接返回给前端或保存为文件。

（1）Java 调用工具类

import net.sf.py4j.GatewayServer;
import net.sf.py4j.JavaGateway;
import org.apache.commons.codec.binary.Base64;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.FileOutputStream;
import java.io.OutputStream;

/**
 * SD 3.5 FP8 模型调用工具类（Py4J 方案）
 */
public class SD35FP8Py4jClient {
    private static final Logger logger = LoggerFactory.getLogger(SD35FP8Py4jClient.class);
    private static final String PYTHON_GATEWAY_HOST = "localhost";
    private static final int PYTHON_GATEWAY_PORT = 25333;
    private static JavaGateway gateway;
    private static Object sdService;

    // 初始化 Py4J 连接
    static {
        try {
            logger.info("连接 Python Py4J 服务：{}:{}", PYTHON_GATEWAY_HOST, PYTHON_GATEWAY_PORT);
            gateway = new JavaGateway(PYTHON_GATEWAY_HOST, PYTHON_GATEWAY_PORT);
            // 获取 Python 端的 SD35FP8Service 实例
            sdService = gateway.getPythonServerEntryPoint();
            logger.info("Py4J 连接成功！");
        } catch (Exception e) {
            logger.error("Py4J 连接失败：", e);
            throw new RuntimeException("初始化 SD 3.5 FP8 客户端失败", e);
        }
    }

    /**
     * 生成图像
     * @param prompt 提示词
     * @param negativePrompt 负提示词
     * @param numInferenceSteps 采样步数
     * @param guidanceScale CFG Scale
     * @param width 宽度
     * @param height 高度
     * @return 图像 Base64 编码
     */
    public static String generateImage(String prompt, String negativePrompt, int numInferenceSteps, float guidanceScale, int width, int height) {
        try {
            logger.info("发起图像生成请求：prompt={}, steps={}, cfg={}", prompt, numInferenceSteps, guidanceScale);
            // 调用 Python 端的 generateImage 方法
            String base64Image = (String) gateway.invokeMethod(
                    sdService,
                    "generateImage",
                    prompt,
                    negativePrompt,
                    numInferenceSteps,
                    guidanceScale,
                    width,
                    height
            );
            logger.info("图像生成成功，Base64 长度：{}", base64Image.length());
            return base64Image;
        } catch (Exception e) {
            String errorMsg = e.getMessage();
            logger.error("图像生成失败：", e);
            throw new RuntimeException("生成图像异常：" + errorMsg, e);
        }
    }

    /**
     * 将 Base64 图像保存为文件
     * @param base64Image Base64 编码
     * @param outputPath 输出路径（如：./output.png）
     */
    public static void saveBase64Image(String base64Image, String outputPath) {
        try {
            byte[] imageBytes = Base64.decodeBase64(base64Image);
            try (OutputStream outputStream = new FileOutputStream(outputPath)) {
                outputStream.write(imageBytes);
            }
            logger.info("图像已保存至：{}", outputPath);
        } catch (Exception e) {
            logger.error("保存图像失败：", e);
            throw new RuntimeException("保存图像异常", e);
        }
    }

    // 关闭连接（程序退出时调用）
    public static void close() {
        if (gateway != null) {
            gateway.shutdown();
            logger.info("Py4J 连接已关闭");
        }
    }
}

（2）Java 应用调用示例（Spring Boot 为例）

import org.springframework.web.bind.annotation.*;
import org.springframework.web.bind.annotation.RestController;

import java.util.HashMap;
import java.util.Map;

/**
 * 图像生成 API 控制器
 */
@RestController
@RequestMapping("/api/image")
public class ImageGenerateController {

    @PostMapping("/generate")
    public Map<String, Object> generateImage(@RequestBody ImageGenerateRequest request) {
        Map<String, Object> result = new HashMap<>();
        try {
            // 调用工具类生成图像
            String base64Image = SD35FP8Py4jClient.generateImage(
                    request.getPrompt(),
                    request.getNegativePrompt(),
                    request.getNumInferenceSteps(),
                    request.getGuidanceScale(),
                    request.getWidth(),
                    request.getHeight()
            );
            
            // 返回结果
            result.put("success", true);
            result.put("data", base64Image);
            result.put("message", "生成成功");
        } catch (RuntimeException e) {
            result.put("success", false);
            result.put("message", e.getMessage());
        }
        return result;
    }

    // 请求参数实体类
    public static class ImageGenerateRequest {
        private String prompt;
        private String negativePrompt = "blurry, low quality, bad anatomy"; // 默认负提示词
        private int numInferenceSteps = 25; // 默认采样步数
        private float guidanceScale = 4.8f; // 默认 CFG Scale
        private int width = 1024; // 默认宽度
        private int height = 1024; // 默认高度

        // getter/setter 省略
    }
}

4. 异常处理：超时、显存不足容错机制

Py4J 方案的容错能力较弱，需通过代码层面处理常见异常，避免 Python 进程崩溃影响 Java 服务：

（1）Python 端异常处理增强

# 在 SD35FP8Service.generateImage 方法中添加超时控制和显存清理
import signal
from contextlib import contextmanager

class TimeoutException(Exception):
    pass

@contextmanager
def timeout(seconds=30):
    """超时控制装饰器（默认 30 秒，避免生成时间过长）"""
    def handler(signum, frame):
        raise TimeoutException(f"生成超时（超过 {seconds} 秒）")
    signal.signal(signal.SIGALRM, handler)
    signal.alarm(seconds)
    try:
        yield
    finally:
        signal.alarm(0)

def generateImage(self, prompt: str, negativePrompt: str, numInferenceSteps: int, guidanceScale: float, width: int, height: int) -> str:
    try:
        with timeout(seconds=60):  # 生成超时控制（最长 60 秒）
            # 生成图像（原有逻辑不变）
            image = self.pipe(...)
            
            # 清理显存缓存
            torch.cuda.empty_cache()
            
            # 转为 Base64 并返回
            ...
    except TimeoutException as e:
        logging.error(str(e))
        torch.cuda.empty_cache()  # 超时后清理显存
        raise RuntimeError(str(e))
    except torch.cuda.OutOfMemoryError:
        logging.error("显存不足")
        torch.cuda.empty_cache()  # 清理显存
        raise RuntimeError("显存不足，请将分辨率调整至 768x768 以下")
    except Exception as e:
        logging.error(f"生成失败：{str(e)}")
        torch.cuda.empty_cache()
        raise RuntimeError(f"生成失败：{str(e)}")

（2）Java 端熔断降级（使用 Resilience4j）

为了避免 Python 进程崩溃导致 Java 服务不可用，可通过 Resilience4j 实现熔断降级：

<!-- 添加 Resilience4j 依赖 -->
<dependency>
    <groupId>io.github.resilience4j</groupId>
    <artifactId>resilience4j-circuitbreaker</artifactId>
    <version>2.1.0</version>
</dependency>

import io.github.resilience4j.circuitbreaker.annotation.CircuitBreaker;

@RestController
@RequestMapping("/api/image")
public class ImageGenerateController {

    // 配置熔断：失败率超过 50% 时熔断，10 秒后尝试恢复
    @CircuitBreaker(name = "sdImageGenerate", fallbackMethod = "generateFallback")
    @PostMapping("/generate")
    public Map<String, Object> generateImage(@RequestBody ImageGenerateRequest request) {
        // 原有生成逻辑
    }

    // 熔断降级方法（当 Python 服务异常时返回默认提示）
    public Map<String, Object> generateFallback(ImageGenerateRequest request, Exception e) {
        Map<String, Object> result = new HashMap<>();
        result.put("success", false);
        result.put("message", "图像生成服务暂时不可用，请稍后重试");
        logger.error("熔断触发，降级处理：", e);
        return result;
    }
}

5. 部署与运行流程

启动 Python 服务：运行 sd35fp8_py4j_service.py，加载模型并启动 Py4J 网关；
启动 Java 应用：运行 Spring Boot 应用，自动连接 Python 服务；
测试 API：通过 Postman 或前端调用 /api/image/generate，传递提示词参数，接收 Base64 图像。

三、方案 2 实战：gRPC 服务化部署（高并发场景）

gRPC 是 Google 开源的高性能 RPC 框架，基于 Protobuf 协议，支持多语言、多线程并发，适合高并发、分布式场景。该方案将 Python 模型封装为 gRPC 服务，Java 作为客户端调用，可实现负载均衡、集群部署，满足生产级高可用需求。

1. 核心组件与环境准备

（1）核心组件

Protobuf：定义服务接口和数据结构（统一 Java/Python 数据格式）；
gRPC 服务端（Python）：加载 SD 3.5 FP8 模型，提供图像生成 RPC 接口；
gRPC 客户端（Java）：调用 gRPC 服务，传递参数并接收图像数据；
负载均衡（可选）：如 Nginx、Consul，实现多服务实例负载分发。

（2）依赖安装

Python 端：安装 gRPC 和 SD 3.5 FP8 相关依赖

pip install grpcio==1.59.0 grpcio-tools==1.59.0 diffusers==0.22.0 torch==2.2.0 transformers==4.37.0

Java 端：添加 gRPC 依赖（Maven 示例）

<!-- gRPC 核心依赖 -->
<dependency>
    <groupId>io.grpc</groupId>
    <artifactId>grpc-netty-shaded</artifactId>
    <version>1.59.0</version>
</dependency>
<dependency>
    <groupId>io.grpc</groupId>
    <artifactId>grpc-protobuf</artifactId>
    <version>1.59.0</version>
</dependency>
<dependency>
    <groupId>io.grpc</groupId>
    <artifactId>grpc-stub</artifactId>
    <version>1.59.0</version>
</dependency>
<dependency>
    <groupId>javax.annotation</groupId>
    <artifactId>javax.annotation-api</artifactId>
    <version>1.3.2</version>
    <scope>provided</scope>
</dependency>
<!-- Protobuf 编译插件 -->
<build>
    <extensions>
        <extension>
            <groupId>kr.motd.maven</groupId>
            <artifactId>os-maven-plugin</artifactId>
            <version>1.7.1</version>
        </extension>
    </extensions>
    <plugins>
        <plugin>
            <groupId>org.xolstice.maven.plugins</groupId>
            <artifactId>protobuf-maven-plugin</artifactId>
            <version>0.6.1</version>
            <configuration>
                <protocArtifact>com.google.protobuf:protoc:3.24.4:exe:${os.detected.classifier}</protocArtifact>
                <pluginId>grpc-java</pluginId>
                <pluginArtifact>io.grpc:protoc-gen-grpc-java:1.59.0:exe:${os.detected.classifier}</pluginArtifact>
            </configuration>
            <executions>
                <execution>
                    <goals>
                        <goal>compile</goal>
                        <goal>compile-custom</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

2. Protobuf 定义：统一服务接口与数据结构

首先需定义 Protobuf 协议文件，明确服务接口（如 GenerateImage）和数据结构（请求/响应参数），确保 Java 和 Python 端数据格式一致。

创建 src/main/proto/sd_image_service.proto 文件：

syntax = "proto3";

package com.example.sd35fp8.grpc;

// 图像生成请求参数
message ImageGenerateRequest {
  string prompt = 1; // 提示词（必填）
  string negative_prompt = 2; // 负提示词（可选，默认空）
  int32 num_inference_steps = 3; // 采样步数（可选，默认25）
  float guidance_scale = 4; // CFG Scale（可选，默认4.8）
  int32 width = 5; // 图像宽度（可选，默认1024）
  int32 height = 6; // 图像高度（可选，默认1024）
  string request_id = 7; // 请求ID（用于追踪）
}

// 图像生成响应结果
message ImageGenerateResponse {
  bool success = 1; // 是否成功
  string base64_image = 2; // 图像Base64编码（成功时返回）
  string message = 3; // 提示信息（失败时返回错误原因）
  string request_id = 4; // 响应ID（与请求ID一致）
}

// 图像生成服务接口
service SD35FP8ImageService {
  // 生成图像
  rpc GenerateImage (ImageGenerateRequest) returns (ImageGenerateResponse);
}

（1）编译 Protobuf 文件（Java 端）

执行 Maven 编译命令，自动生成 Java 端的 gRPC 客户端代码：

mvn clean compile

编译后会在 target/generated-sources/protobuf 目录下生成 ImageGenerateRequest.java、ImageGenerateResponse.java、SD35FP8ImageServiceGrpc.java 等文件，无需手动编写。

（2）生成 Python 端 gRPC 代码

执行以下命令，生成 Python 端的服务端/客户端代码：

python -m grpc_tools.protoc -I./src/main/proto --python_out=./python_grpc --grpc_python_out=./python_grpc ./src/main/proto/sd_image_service.proto

生成后会在 python_grpc 目录下得到 sd_image_service_pb2.py（数据结构）和 sd_image_service_pb2_grpc.py（服务接口）。

3. Python 端 gRPC 服务实现（模型加载+并发处理）

Python 端需实现 gRPC 服务接口，加载 SD 3.5 FP8 模型，处理客户端请求并返回结果。为了支持高并发，可通过 concurrent.futures 实现多线程处理。

import grpc
import sd_image_service_pb2
import sd_image_service_pb2_grpc
from concurrent import futures
from diffusers import StableDiffusion3Pipeline
import torch
from io import BytesIO
import base64
from PIL import Image
import logging
import time
import torch.cuda.empty_cache

# 配置日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
_ONE_DAY_IN_SECONDS = 60 * 60 * 24
MAX_WORKERS = 4  # 并发线程数（根据 CPU 核心数调整，建议等于 GPU 数量）

class SD35FP8ImageServiceImpl(sd_image_service_pb2_grpc.SD35FP8ImageServiceServicer):
    def __init__(self):
        """初始化模型，仅加载一次"""
        logging.info("开始加载 SD 3.5 FP8 模型...")
        try:
            self.pipe = StableDiffusion3Pipeline.from_pretrained(
                "stabilityai/stable-diffusion-3.5",
                torch_dtype=torch.float8_e4m3fn,
                variant="fp8"
            ).to("cuda")
            
            # 启用优化
            self.pipe.enable_xformers_memory_efficient_attention()
            self.pipe.enable_vae_slicing()
            
            logging.info("模型加载完成，服务就绪！")
        except Exception as e:
            logging.error(f"模型加载失败：{str(e)}", exc_info=True)
            raise RuntimeError("模型初始化失败") from e

    def GenerateImage(self, request, context):
        """实现 GenerateImage RPC 接口"""
        request_id = request.request_id or f"req_{int(time.time() * 1000)}"
        logging.info(f"接收请求 [{request_id}]：prompt={request.prompt}, steps={request.num_inference_steps}, cfg={request.guidance_scale}")
        
        # 设置默认参数
        num_inference_steps = request.num_inference_steps or 25
        guidance_scale = request.guidance_scale or 4.8
        width = request.width or 1024
        height = request.height or 1024
        negative_prompt = request.negative_prompt or "blurry, low quality, bad anatomy"
        
        try:
            # 生成图像
            image = self.pipe(
                prompt=request.prompt,
                negative_prompt=negative_prompt,
                num_inference_steps=num_inference_steps,
                guidance_scale=guidance_scale,
                width=width,
                height=height
            ).images[0]
            
            # 转为 Base64
            buffer = BytesIO()
            image.save(buffer, format="PNG", quality=95)
            base64_image = base64.b64encode(buffer.getvalue()).decode("utf-8")
            
            # 清理显存
            torch.cuda.empty_cache()
            
            logging.info(f"请求 [{request_id}] 生成成功")
            return sd_image_service_pb2.ImageGenerateResponse(
                success=True,
                base64_image=base64_image,
                message="生成成功",
                request_id=request_id
            )
        except torch.cuda.OutOfMemoryError:
            logging.error(f"请求 [{request_id}] 显存不足")
            torch.cuda.empty_cache()
            return sd_image_service_pb2.ImageGenerateResponse(
                success=False,
                message="GPU 显存不足，请降低分辨率至 768x768 以下",
                request_id=request_id
            )
        except Exception as e:
            logging.error(f"请求 [{request_id}] 生成失败：{str(e)}", exc_info=True)
            torch.cuda.empty_cache()
            return sd_image_service_pb2.ImageGenerateResponse(
                success=False,
                message=f"生成失败：{str(e)}",
                request_id=request_id
            )

def serve():
    """启动 gRPC 服务"""
    # 创建服务器，设置并发线程数
    server = grpc.server(futures.ThreadPoolExecutor(max_workers=MAX_WORKERS))
    # 注册服务实现
    sd_image_service_pb2_grpc.add_SD35FP8ImageServiceServicer_to_server(
        SD35FP8ImageServiceImpl(), server
    )
    # 绑定端口（默认 50051）
    server.add_insecure_port('[::]:50051')
    # 启动服务
    server.start()
    logging.info("gRPC 服务启动，端口：50051")
    
    try:
        server.wait_for_termination(_ONE_DAY_IN_SECONDS)
    except KeyboardInterrupt:
        logging.info("服务正在关闭...")
        server.stop(0)
        logging.info("服务已关闭")

if __name__ == '__main__':
    serve()

4. Java 端 gRPC 客户端开发（调用服务+图像解析）

Java 端通过生成的 gRPC 客户端代码，连接 Python gRPC 服务，传递请求参数并接收响应，解析 Base64 图像后返回给前端。

（1）gRPC 客户端工具类

import io.grpc.Channel;
import io.grpc.ManagedChannel;
import io.grpc.ManagedChannelBuilder;
import io.grpc.StatusRuntimeException;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import com.example.sd35fp8.grpc.SdImageService;
import com.example.sd35fp8.grpc.SdImageService.ImageGenerateRequest;
import com.example.sd35fp8.grpc.SdImageService.ImageGenerateResponse;
import com.example.sd35fp8.grpc.SD35FP8ImageServiceGrpc;
import com.example.sd35fp8.grpc.SD35FP8ImageServiceGrpc.SD35FP8ImageServiceBlockingStub;

import java.util.UUID;
import java.util.concurrent.TimeUnit;

/**
 * SD 3.5 FP8 gRPC 客户端工具类
 */
public class SD35FP8GrpcClient {
    private static final Logger logger = LoggerFactory.getLogger(SD35FP8GrpcClient.class);
    private final SD35FP8ImageServiceBlockingStub blockingStub;
    private final ManagedChannel channel;

    /**
     * 初始化客户端
     * @param host gRPC 服务端地址
     * @param port gRPC 服务端端口
     */
    public SD35FP8GrpcClient(String host, int port) {
        this(ManagedChannelBuilder.forAddress(host, port)
                .usePlaintext() // 开发环境使用明文传输（生产环境建议使用 TLS）
                .keepAliveTime(10, TimeUnit.SECONDS)
                .build());
    }

    private SD35FP8GrpcClient(ManagedChannel channel) {
        this.channel = channel;
        this.blockingStub = SD35FP8ImageServiceGrpc.newBlockingStub(channel);
    }

    /**
     * 生成图像
     * @param prompt 提示词
     * @param negativePrompt 负提示词
     * @param numInferenceSteps 采样步数
     * @param guidanceScale CFG Scale
     * @param width 宽度
     * @param height 高度
     * @return 图像 Base64 编码
     */
    public String generateImage(String prompt, String negativePrompt, int numInferenceSteps, float guidanceScale, int width, int height) {
        String requestId = UUID.randomUUID().toString();
        logger.info("发起 gRPC 请求 [{}]：prompt={}, steps={}, cfg={}", requestId, prompt, numInferenceSteps, guidanceScale);
        
        // 构建请求参数
        ImageGenerateRequest request = ImageGenerateRequest.newBuilder()
                .setPrompt(prompt)
                .setNegativePrompt(negativePrompt)
                .setNumInferenceSteps(numInferenceSteps)
                .setGuidanceScale(guidanceScale)
                .setWidth(width)
                .setHeight(height)
                .setRequestId(requestId)
                .build();
        
        try {
            // 调用 gRPC 服务（同步调用）
            ImageGenerateResponse response = blockingStub.withDeadlineAfter(60, TimeUnit.SECONDS)
                    .generateImage(request);
            
            if (response.getSuccess()) {
                logger.info("gRPC 请求 [{}] 生成成功", response.getRequestId());
                return response.getBase64Image();
            } else {
                logger.error("gRPC 请求 [{}] 生成失败：{}", response.getRequestId(), response.getMessage());
                throw new RuntimeException(response.getMessage());
            }
        } catch (StatusRuntimeException e) {
            logger.error("gRPC 服务调用异常 [{}]：", requestId, e);
            throw new RuntimeException("服务调用异常：" + e.getStatus().getDescription());
        }
    }

    /**
     * 关闭通道（程序退出时调用）
     */
    public void shutdown() throws InterruptedException {
        channel.shutdown().awaitTermination(5, TimeUnit.SECONDS);
        logger.info("gRPC 客户端通道已关闭");
    }

    // 单例客户端（避免频繁创建通道）
    public static class ClientHolder {
        private static final SD35FP8GrpcClient INSTANCE = new SD35FP8GrpcClient("localhost", 50051);
    }

    public static SD35FP8GrpcClient getInstance() {
        return ClientHolder.INSTANCE;
    }
}

（2）Java 接口层调用（Spring Boot 为例）

import org.springframework.web.bind.annotation.*;
import org.springframework.web.bind.annotation.RestController;

import java.util.HashMap;
import java.util.Map;

/**
 * gRPC 版本图像生成 API 控制器
 */
@RestController
@RequestMapping("/api/image/grpc")
public class GrpcImageGenerateController {

    @PostMapping("/generate")
    public Map<String, Object> generateImage(@RequestBody ImageGenerateRequest request) {
        Map<String, Object> result = new HashMap<>();
        try {
            // 获取 gRPC 客户端实例
            SD35FP8GrpcClient client = SD35FP8GrpcClient.getInstance();
            
            // 调用服务
            String base64Image = client.generateImage(
                    request.getPrompt(),
                    request.getNegativePrompt(),
                    request.getNumInferenceSteps(),
                    request.getGuidanceScale(),
                    request.getWidth(),
                    request.getHeight()
            );
            
            // 返回结果
            result.put("success", true);
            result.put("data", base64Image);
            result.put("message", "生成成功");
        } catch (RuntimeException e) {
            result.put("success", false);
            result.put("message", e.getMessage());
        }
        return result;
    }

    // 请求参数实体类（与 Py4J 方案一致）
    public static class ImageGenerateRequest {
        private String prompt;
        private String negativePrompt = "blurry, low quality, bad anatomy";
        private int numInferenceSteps = 25;
        private float guidanceScale = 4.8f;
        private int width = 1024;
        private int height = 1024;

        // getter/setter 省略
    }
}

5. 分布式部署与负载均衡

对于高并发场景，可部署多个 Python gRPC 服务实例，通过 Nginx 或 Consul 实现负载均衡：

（1）Nginx 负载均衡配置（示例）

http {
    upstream sd_grpc_servers {
        server 192.168.1.100:50051; # 服务实例 1
        server 192.168.1.101:50051; # 服务实例 2
        server 192.168.1.102:50051; # 服务实例 3
    }

    server {
        listen 50050 http2; # gRPC 基于 HTTP/2，需启用 http2 模块

        location / {
            grpc_pass grpc://sd_grpc_servers;
            grpc_set_header Host $host;
            grpc_set_header X-Real-IP $remote_addr;
        }
    }
}

（2）Java 客户端连接负载均衡地址

修改 SD35FP8GrpcClient 的初始化地址，连接 Nginx 负载均衡端口：

public static class ClientHolder {
    // 连接 Nginx 负载均衡地址，而非单个服务实例
    private static final SD35FP8GrpcClient INSTANCE = new SD35FP8GrpcClient("192.168.1.200", 50050);
}

四、接口性能优化：提升并发与响应速度

无论是 Py4J 还是 gRPC 方案，都可通过以下优化手段提升接口性能，满足高并发需求：

1. 连接池配置：减少频繁创建连接开销

（1）gRPC 客户端连接池优化

Java 端通过复用 gRPC 通道，避免频繁创建和关闭连接：

// 在 SD35FP8GrpcClient 中优化通道配置
private SD35FP8GrpcClient(String host, int port) {
    this.channel = ManagedChannelBuilder.forAddress(host, port)
            .usePlaintext()
            .keepAliveTime(10, TimeUnit.SECONDS)
            .keepAliveTimeout(3, TimeUnit.SECONDS)
            .maxInboundMessageSize(1024 * 1024 * 30) // 增大消息大小限制（30MB，适应高分辨率图像）
            .build();
    this.blockingStub = SD35FP8ImageServiceGrpc.newBlockingStub(channel);
}

（2）Py4J 连接复用

Java 端通过单例模式复用 Py4J 网关连接，避免重复创建：

// SD35FP8Py4jClient 中使用静态代码块初始化单例连接
static {
    try {
        gateway = new JavaGateway(PYTHON_GATEWAY_HOST, PYTHON_GATEWAY_PORT);
        sdService = gateway.getPythonServerEntryPoint();
    } catch (Exception e) {
        throw new RuntimeException("初始化失败", e);
    }
}

2. 异步调用：Java 异步处理生成请求

对于 gRPC 方案，可通过异步调用提升 Java 服务的并发能力，避免同步调用阻塞线程：

（1）gRPC 异步客户端实现

import io.grpc.stub.StreamObserver;

public class SD35FP8GrpcAsyncClient {
    private final SD35FP8ImageServiceGrpc.SD35FP8ImageServiceStub asyncStub;
    private final ManagedChannel channel;

    public SD35FP8GrpcAsyncClient(String host, int port) {
        this.channel = ManagedChannelBuilder.forAddress(host, port)
                .usePlaintext()
                .build();
        this.asyncStub = SD35FP8ImageServiceGrpc.newStub(channel);
    }

    /**
     * 异步生成图像
     * @param request 请求参数
     * @param callback 回调函数（处理结果）
     */
    public void generateImageAsync(ImageGenerateRequest request, ImageGenerateCallback callback) {
        asyncStub.withDeadlineAfter(60, TimeUnit.SECONDS)
                .generateImage(request, new StreamObserver<ImageGenerateResponse>() {
                    @Override
                    public void onNext(ImageGenerateResponse response) {
                        if (response.getSuccess()) {
                            callback.onSuccess(response.getBase64Image());
                        } else {
                            callback.onFailure(new RuntimeException(response.getMessage()));
                        }
                    }

                    @Override
                    public void onError(Throwable t) {
                        callback.onFailure(t);
                    }

                    @Override
                    public void onCompleted() {
                        // 完成回调
                    }
                });
    }

    // 回调接口
    public interface ImageGenerateCallback {
        void onSuccess(String base64Image);
        void onFailure(Throwable t);
    }
}

（2）Spring Boot 异步接口实现

import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestBody;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
import java.util.UUID;
import java.util.concurrent.CompletableFuture;

@RestController
@RequestMapping("/api/image/grpc/async")
public class GrpcAsyncImageGenerateController {

    @PostMapping("/generate")
    public CompletableFuture<Map<String, Object>> generateImageAsync(@RequestBody ImageGenerateRequest request) {
        CompletableFuture<Map<String, Object>> future = new CompletableFuture<>();
        String requestId = UUID.randomUUID().toString();
        
        // 构建 gRPC 请求
        ImageGenerateRequest grpcRequest = ImageGenerateRequest.newBuilder()
                .setPrompt(request.getPrompt())
                .setNegativePrompt(request.getNegativePrompt())
                .setNumInferenceSteps(request.getNumInferenceSteps())
                .setGuidanceScale(request.getGuidanceScale())
                .setWidth(request.getWidth())
                .setHeight(request.getHeight())
                .setRequestId(requestId)
                .build();
        
        // 异步调用 gRPC 服务
        SD35FP8GrpcAsyncClient client = new SD35FP8GrpcAsyncClient("localhost", 50051);
        client.generateImageAsync(grpcRequest, new SD35FP8GrpcAsyncClient.ImageGenerateCallback() {
            @Override
            public void onSuccess(String base64Image) {
                Map<String, Object> result = Map.of(
                        "success", true,
                        "data", base64Image,
                        "message", "生成成功",
                        "requestId", requestId
                );
                future.complete(result);
            }

            @Override
            public void onFailure(Throwable t) {
                Map<String, Object> result = Map.of(
                        "success", false,
                        "message", t.getMessage(),
                        "requestId", requestId
                );
                future.complete(result);
            }
        });
        
        return future;
    }
}

3. 其他优化技巧

模型预热：服务启动时生成一张测试图像，预热 GPU 缓存，减少首次调用延迟；
批量生成：对于批量请求，Python 端实现批量推理接口，减少 GPU 调度开销；
图像压缩：生成图像后通过 PIL 或 OpenCV 压缩，减少 Base64 传输大小；
GPU 调度优化：Python 端使用 torch.cuda.set_per_process_memory_fraction 限制单进程显存占用，支持多服务实例共享 GPU。

五、生产级接口设计：权限控制+请求限流

生产环境中，对外提供的 API 需添加权限控制和请求限流，避免恶意调用和服务过载：

1. 权限控制（基于 JWT）

（1）添加 JWT 依赖（Maven）

<dependency>
    <groupId>io.jsonwebtoken</groupId>
    <artifactId>jjwt-api</artifactId>
    <version>0.11.5</version>
</dependency>
<dependency>
    <groupId>io.jsonwebtoken</groupId>
    <artifactId>jjwt-impl</artifactId>
    <version>0.11.5</version>
    <scope>runtime</scope>
</dependency>
<dependency>
    <groupId>io.jsonwebtoken</groupId>
    <artifactId>jjwt-jackson</artifactId>
    <version>0.11.5</version>
    <scope>runtime</scope>
</dependency>

（2）JWT 认证拦截器

import io.jsonwebtoken.Claims;
import io.jsonwebtoken.Jwts;
import org.springframework.web.servlet.HandlerInterceptor;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;
import java.util.Base64;

public class JwtAuthInterceptor implements HandlerInterceptor {
    private static final String SECRET_KEY = "your-secret-key"; // 生产环境使用复杂密钥，存储在配置中心
    private static final String AUTH_HEADER = "Authorization";
    private static final String TOKEN_PREFIX = "Bearer ";

    @Override
    public boolean preHandle(HttpServletRequest request, HttpServletResponse response, Object handler) throws Exception {
        String authHeader = request.getHeader(AUTH_HEADER);
        if (authHeader == null || !authHeader.startsWith(TOKEN_PREFIX)) {
            response.setStatus(HttpServletResponse.SC_UNAUTHORIZED);
            response.getWriter().write("缺少认证令牌");
            return false;
        }

        String token = authHeader.replace(TOKEN_PREFIX, "");
        try {
            // 验证令牌
            Claims claims = Jwts.parserBuilder()
                    .setSigningKey(Base64.getDecoder().decode(SECRET_KEY))
                    .build()
                    .parseClaimsJws(token)
                    .getBody();
            
            // 令牌有效，将用户信息存入请求属性
            request.setAttribute("userId", claims.get("userId"));
            return true;
        } catch (Exception e) {
            response.setStatus(HttpServletResponse.SC_UNAUTHORIZED);
            response.getWriter().write("认证令牌无效或已过期");
            return false;
        }
    }
}

（3）注册拦截器（Spring Boot）

import org.springframework.context.annotation.Configuration;
import org.springframework.web.servlet.config.annotation.InterceptorRegistry;
import org.springframework.web.servlet.config.annotation.WebMvcConfigurer;

@Configuration
public class WebConfig implements WebMvcConfigurer {
    @Override
    public void addInterceptors(InterceptorRegistry registry) {
        registry.addInterceptor(new JwtAuthInterceptor())
                .addPathPatterns("/api/image/**") // 对图像生成接口进行权限控制
                .excludePathPatterns("/api/image/public/**"); // 排除公开接口
    }
}

2. 请求限流（基于 Resilience4j RateLimiter）

（1）添加依赖

<dependency>
    <groupId>io.github.resilience4j</groupId>
    <artifactId>resilience4j-ratelimiter</artifactId>
    <version>2.1.0</version>
</dependency>

（2）限流配置（application.yml）

resilience4j:
  ratelimiter:
    instances:
      sdImageGenerate:
        limitForPeriod: 100 # 每周期最大请求数
        limitRefreshPeriod: 60000 # 周期（毫秒，1分钟）
        timeoutDuration: 1000 # 超时时间（毫秒）

（3）接口添加限流注解

import io.github.resilience4j.ratelimiter.annotation.RateLimiter;

@RestController
@RequestMapping("/api/image")
public class ImageGenerateController {

    @RateLimiter(name = "sdImageGenerate", fallbackMethod = "rateLimitFallback")
    @PostMapping("/generate")
    public Map<String, Object> generateImage(@RequestBody ImageGenerateRequest request) {
        // 原有生成逻辑
    }

    // 限流降级方法
    public Map<String, Object> rateLimitFallback(ImageGenerateRequest request, Exception e) {
        Map<String, Object> result = new HashMap<>();
        result.put("success", false);
        result.put("message", "请求过于频繁，请1分钟后重试");
        return result;
    }
}

六、小结：两种集成方案的适用场景与选型建议

1. 方案选型总结

场景特征	推荐方案	关键优势
内部工具、小流量（日调用<1000）	Py4J 直接调用	开发快、部署简单、无需额外服务
对外 API、高流量（日调用>1万）	gRPC 服务化	高并发、可集群、容错能力强
分布式系统、跨服务器部署	gRPC 服务化	支持网络通信、负载均衡
快速原型验证、短期项目	Py4J 直接调用	迭代快、无需定义协议
生产级高可用、长期维护	gRPC 服务化	扩展性强、便于监控和运维

2. 生产环境部署建议

Py4J 方案：
- 部署在同一服务器，Java 和 Python 进程绑定同一 GPU；
- 配置进程守护（如 Supervisor），确保 Python 进程崩溃后自动重启；
- 监控 Python 进程内存和 GPU 显存，避免内存泄漏。
gRPC 方案：
- 生产环境启用 gRPC TLS 加密，保护数据传输安全；
- 部署多个 Python 服务实例，通过 Nginx 或 Consul 实现负载均衡；
- 配置服务健康检查和熔断降级，避免单个实例异常影响整体服务；
- 监控 gRPC 服务的 QPS、响应时间和错误率，及时发现问题。