Gradio全解10——Streaming：流式传输的多模态应用（3）——HF Inference：在服务器运行推理

龙焰智能

已于 2025-08-06 17:11:12 修改

阅读量496

点赞数 11

CC 4.0 BY-SA版权

文章标签：人工智能 HF Inference 推理 InferenceClient text_to_image chat_completion

于 2025-08-06 16:14:53 首次发布

本文链接：https://blog.youkuaiyun.com/shao918516/article/details/149974251

Gradio全解10——Streaming：流式传输的多模态应用（3）——HF Inference：在服务器运行推理

- 10.3 HF Inference：在推理客户端运行推理服务

本章目录如下：

10.3 HF Inference：在推理客户端运行推理服务

在学习更高级聊天机器人示例之前，需要先学习一下要用到的两个知识点：HF Inference和ZeroGPU。本节学习HF Inference，推理（Inference）是指使用训练好的模型对新数据进行预测的过程。由于该过程可能涉及大量计算，所以最好运行在专用服务或外部服务上。关于在服务上运行推理请参阅HuggingFace说明文档： Run Inference on servers🖇️链接10-5。

10.3.1 InferenceClient的推理类型

huggingface_hub库提供了运行推理服务的统一接口，可为托管在HuggingFace Hub上的模型提供跨多种服务器的推理，包括：

推理服务提供商（Inference Providers）：通过HuggingFace的无服务器推理合作伙伴，为数百个机器学习模型提供简化的统一访问。这一新方案基于先前推出的无服务器推理API（Serverless Inference API），依托世界级服务提供商的支持，可提供更多模型选择、更优性能及更高可靠性。支持的服务商列表请参阅Inference Providers🖇️链接10-6。
推理终端节点（Inference Endpoints）：该产品可轻松将模型部署至生产环境，推理过程由HuggingFace在用户指定的云服务商的专属全托管基础设施中运行。
本地终端节点（Local endpoints）：用户还可以通过将客户端连接至llama.cpp、Ollama、vLLM、LiteLLM或文本生成推理（Text Generation Inference, TGI）等本地推理服务器来运行推理。

这些服务均可通过InferenceClient对象调用，InferenceClient是一个通过HTTP调用与官方API交互的Python客户端。它替代了旧版客户端InferenceApi，并新增了对特定任务和第三方供应商的支持，从旧版客户端迁移至新客户端的方法请参阅Legacy InferenceAPI client🖇️链接10-7。

如果用户希望直接使用常用工具（如curl、Postman等）发起HTTP请求，请参阅Inference Providers🖇️链接10-8，或Inference Endpoints🖇️链接10-9。对于网页开发，官方已发布JS Client🖇️链接10-10。如果从事游戏开发，可以关注官方的C# project🖇️链接10-11。

10.3.2 text_to_image：文生图任务

让我们从一个文生图任务开始入门：

from huggingface_hub import InferenceClient
# Example with an external provider (e.g. replicate)
replicate_client = InferenceClient(
    provider="replicate",
    api_key="my_replicate_api_key",
)
replicate_image = replicate_client.text_to_image(
    "A flying car crossing a futuristic cityscape.",
    model="black-forest-labs/FLUX.1-schnell",
)
replicate_image.save("flying_car.png")

在上述示例中，我们使用第三方服务提供商Replicate初始化了一个 InferenceClient。当使用第三方提供商时，必须指定要使用的模型，该模型ID必须是HuggingFace Hub上的模型标识符，而非第三方提供商自身的模型ID。在本例中，我们通过文本提示生成了一张图像，返回值为PIL.Image对象，可保存为文件，更多细节请参阅文档：text_to_image()🖇️链接10-12。

10.3.3 chat_completion：生成响应

接下来让我们看一个使用chat_completion() API的示例，该任务利用大语言模型由消息列表生成响应：

from huggingface_hub import InferenceClient
messages = [
    {
        "role": "user",
        "content": "What is the capital of France?",
    }
]
client = InferenceClient(
    provider="together",
    model="meta-llama/Meta-Llama-3-8B-Instruct",
    api_key="my_together_api_key",
)
client.chat_completion(messages, max_tokens=100)

输出为：

ChatCompletionOutput(
    choices=[
        ChatCompletionOutputComplete(
            finish_reason="eos_token",
            index=0,
            message=ChatCompletionOutputMessage(
                role="assistant", content="The capital of France is Paris.", name=None, tool_calls=None
            ),
            logprobs=None,
        )
    ],
    created=1719907176,
    id="",
    model="meta-llama/Meta-Llama-3-8B-Instruct",
    object="text_completion",
    system_fingerprint="2.0.4-sha-f426a33",
    usage=ChatCompletionOutputUsage(completion_tokens=8, prompt_tokens=17, total_tokens=25),
)

示例中，我们创建客户端时使用了第三方服务提供商Together AI，并指定了所需模型meta-llama/Meta-Llama-3-8B-Instruct。随后我们提供了待补全的消息列表（此处为单个问题），并向API传递了额外参数（max_token=100）。输出结果为遵循OpenAI规范的ChatCompletionOutput对象，生成内容可通过output.choices[0].message.content获取。

更多细节请参阅chat_completion()文档🖇️链接10-13。该API设计简洁，但并非所有参数和选项都会向终端用户开放或说明，如需了解各任务支持的全部参数，请查阅Inference Providers - API Reference🖇️链接10-14，如果查询各提供商支持的任务，请查询Inference - Supported providers and tasks🖇️链接10-15。