使用多模态LLM构建图像问答助手-优快云博客

技术背景介绍

随着多模态语言模型（LLM）的发展，我们现在可以创建能够进行图像问答的视觉助手。这些助手可以分析图像并提供深入的图像内容解答。本文介绍了一种针对幻灯片演示文稿（如财务报告中常见的图表和图形）进行问答的视觉助手模板。

这项技术主要利用GPT-4V来总结每个幻灯片的图像，并嵌入到Chroma中，通过对用户问题的图像摘要进行相似度匹配，检索相关幻灯片并进行回答。

核心原理解析

该模板的工作流程如下：

幻灯片提取：将PDF格式的幻灯片提取为一系列图像。
图像总结：使用GPT-4V对每个图像进行总结。
嵌入与存储：将图像总结进行文本嵌入，并与原始图像链接。嵌入结果存储在Chroma中。
检索与回答：根据用户问题与图像总结的相似度，检索相关图像，并通过GPT-4V进行回答合成。

代码实现演示

下面展示如何使用 Python 配置并运行这一流程：

import langchain
from rag_chroma_multi_modal_multi_vector import chain as rag_chroma_multi_modal_chain_mv
from langserve.client import RemoteRunnable

# 配置OpenAI API服务
import openai
client = openai.OpenAI(
    base_url='https://yunwu.ai/v1',  # 国内稳定访问
    api_key='your-api-key'
)

def setup_environment():
    # 环境变量设置
    import os
    os.environ['OPENAI_API_KEY'] = 'your-api-key'
    os.environ['UPSTASH_URL'] = 'your-upstash-url'
    os.environ['UPSTASH_TOKEN'] = 'your-upstash-token'

def serve_application():
    # LangChain应用服务
    langchain_app = langchain.LangChain()
    add_routes(langchain_app, rag_chroma_multi_modal_chain_mv, path="/rag-chroma-multi-modal-multi-vector")
    langchain_app.run(host="localhost", port=8000, debug=True)

if __name__ == "__main__":
    setup_environment()
    serve_application()