使用DeepSeek API实现多模态图像分析：技术实践指南

最新推荐文章于 2025-09-16 02:23:58 发布

原创最新推荐文章于 2025-09-16 02:23:58 发布 · 4.7k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#AI编程 #python

AI 专栏收录该内容

3 篇文章

订阅专栏

该文章已生成可运行项目，

引言

在当今AI技术飞速发展的时代，多模态大模型正变得越来越强大。DeepSeek作为国内领先的大模型提供商，其API接口为我们提供了便捷的方式来访问这些先进能力。本文将介绍如何使用Python和DeepSeek API实现一个简单的图像分析应用，能够识别图片中的动物。

环境准备

首先，我们需要安装必要的Python库：

pip install langchain-openai httpx

langchain-openai库虽然名字中包含"OpenAI"，但我们可以通过配置让它与DeepSeek API兼容。httpx库则用于下载网络图片。

获取API密钥

在使用DeepSeek API前，你需要：

访问DeepSeek官网注册账号
获取API密钥
将密钥设置为环境变量（推荐做法）

# 在.bashrc或.zshrc中添加
export DEEPSEEK_API_KEY="your_api_key_here"

代码解析

让我们逐步分析这个图像分析应用的实现代码：

1. 导入必要的库

from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage
import base64
import httpx
import os
import json

这里我们使用了langchain生态系统的组件，尽管DeepSeek不是OpenAI，但它们的API设计兼容，使得我们可以复用这些工具。

2. 下载并编码图片

image_url = "https://wx4.sinaimg.cn/mw690/007jCdDZgy1h84021iessj30u00tj0ul.jpg"
image_data = base64.b64encode(httpx.get(image_url).read()).decode("utf-8")

DeepSeek API目前不支持直接从URL加载图片，所以我们需要：

使用httpx下载图片
用base64编码图片数据
将二进制数据转换为UTF-8字符串

3. 配置DeepSeek模型

model = ChatOpenAI(
    model_name="deepseek-chat",
    openai_api_key=os.getenv("DEEPSEEK_API_KEY"),
    openai_api_base="https://api.deepseek.com/v1"
)

这里我们配置了：

使用deepseek-chat模型
从环境变量获取API密钥
设置DeepSeek的API基础地址

4. 构建多模态消息

message = HumanMessage(
    content=json.dumps([
        {"type": "text", "text": "这张图片里面有什么动物？"},
        {"type": "image", "image": {"data": image_data, "format": "base64"}},
    ])
)

消息结构包含：

文本部分：我们的问题
图像部分：Base64编码的图片数据

5. 调用API并获取响应

response = model.invoke([message])
print(response.content)

应用场景

这种多模态分析能力可以应用于：

社交媒体内容审核
智能相册分类
电商产品图像识别
教育领域的视觉辅助学习

完整代码

from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage
import base64
import httpx
import os
import json

# 下载并编码图片
image_url = "https://wx4.sinaimg.cn/mw690/007jCdDZgy1h84021iessj30u00tj0ul.jpg"
image_data = base64.b64encode(httpx.get(image_url).read()).decode("utf-8")

# 配置DeepSeek模型
model = ChatOpenAI(
    model_name="deepseek-chat",
    openai_api_key=os.getenv("DEEPSEEK_API_KEY"),
    openai_api_base="https://api.deepseek.com/v1"
)

# 构建多模态消息
message = HumanMessage(
    content=json.dumps([
        {"type": "text", "text": "这张图片里面有什么动物？"},
        {"type": "image", "image": {"data": image_data, "format": "base64"}},
    ])
)

# 调用API
response = model.invoke([message])
print(response.content)