Timescale/pgai项目：OpenAI与Nomic等主流嵌入模型的对比评估指南

最新推荐文章于 2025-06-08 09:19:38 发布

原创最新推荐文章于 2025-06-08 09:19:38 发布 · 390 阅读

3 ·

CC 4.0 BY-SA版权

Timescale/pgai项目：OpenAI与Nomic等主流嵌入模型的对比评估指南

pgai Helper functions for AI workflows 项目地址: https://gitcode.com/gh_mirrors/pg/pgai

引言

在当今AI驱动的应用开发中，选择合适的文本嵌入模型对构建高效的语义搜索系统至关重要。Timescale/pgai项目提供了强大的工具集，使开发者能够在PostgreSQL环境中直接比较不同嵌入模型的性能表现。本文将详细介绍如何使用pgai扩展对OpenAI、Nomic和BGE等主流嵌入模型进行全面评估。

评估准备

环境要求

Docker环境：确保已安装Docker和Docker Compose
OpenAI API密钥：用于访问OpenAI的嵌入模型服务
PostgreSQL数据库：需安装pgai扩展
评估数据集：Paul Graham的散文集，包含丰富的文本内容

关键配置参数

评估过程中需要关注以下核心参数：

NUM_CHUNKS = 20                # 评估的随机文本块数量
NUM_QUESTIONS_PER_CHUNK = 20   # 每个文本块生成的问题数量
TOP_K = 10                     # 检索最相似文本块的数量
QUESTION_DISTRIBUTION = {      # 问题类型分布
    'short': 4,    # 简短问题(少于10个词)
    'long': 4,     # 需要详细回答的问题
    'direct': 4,   # 关于明确信息的问题
    'implied': 4,  # 需要上下文理解的问题
    'unclear': 4   # 模糊或模棱两可的问题
}

环境搭建步骤

1. 启动服务

使用提供的Docker Compose文件启动评估环境：

docker compose up -d

2. 连接数据库

docker compose exec -ti db psql

3. 安装模型

根据评估需求，可选择安装不同的嵌入模型：

docker compose exec ollama ollama pull nomic-embed-text
docker compose exec ollama ollama pull bge-large

4. 启用pgai扩展

在PostgreSQL中执行：

CREATE EXTENSION IF NOT EXISTS ai CASCADE;

数据集准备

1. 创建基础表结构

CREATE TABLE pg_essays (
    id SERIAL PRIMARY KEY,
    title TEXT,
    date TEXT,
    text TEXT
);

2. 加载数据集

SELECT ai.load_dataset('sgoel9/paul_graham_essays', 
       table_name => 'pg_essays', 
       if_table_exists => 'append');

模型向量化配置

pgai支持多种嵌入模型的向量化配置，以下是四种主流模型的配置示例：

1. Nomic embed-text模型

SELECT ai.create_vectorizer(
   'pg_essays'::regclass,
   loading => ai.loading_column('text'),
   destination => ai.destination_table('essays_nomic_embeddings'),
   embedding => ai.embedding_ollama('nomic-embed-text', 768),
   chunking => ai.chunking_recursive_character_text_splitter(512, 50)
);

2. OpenAI小型模型

SELECT ai.create_vectorizer(
   'pg_essays'::regclass,
   loading => ai.loading_column('text'),
   destination => ai.destination_table('essays_openai_small_embeddings'),
   embedding => ai.embedding_openai('text-embedding-3-small', 768),
   chunking => ai.chunking_recursive_character_text_splitter(512, 50)
);

3. BGE大型模型

SELECT ai.create_vectorizer(
   'pg_essays'::regclass,
   loading => ai.loading_column('text'),
   destination => ai.destination_table('essays_bge_large_embeddings'),
   embedding => ai.embedding_ollama('bge-large', 1024),
   chunking => ai.chunking_recursive_character_text_splitter(512, 50)
);

4. OpenAI大型模型

SELECT ai.create_vectorizer(
   'pg_essays'::regclass,
   loading => ai.loading_column('text'),
   destination => ai.destination_table('essays_openai_large_embeddings'), 
   embedding => ai.embedding_openai('text-embedding-3-large', 1536),
   chunking => ai.chunking_recursive_character_text_splitter(512, 50)
);

评估流程

1. 获取评估文本块

evaluator = StepByStepEvaluator()
chunks = evaluator.step1_get_chunks()
pd.DataFrame(chunks).to_csv('chunks.csv')

2. 生成评估问题

chunks = pd.read_csv('chunks.csv', index_col=0).to_dict('records')
evaluator.chunks = chunks
questions = evaluator.step2_generate_questions()
pd.DataFrame(questions).to_csv('questions.csv')

3. 执行模型评估

results = evaluator.step3_evaluate_models()  # 从questions.csv读取
pd.DataFrame(results).to_csv('results.csv')
evaluator.print_results()

评估结果分析

评估完成后，系统会生成以下输出文件：

chunks.csv：从数据库中随机选取的文本块
questions.csv：为每个文本块生成的问题集
results.csv：各模型的整体性能指标
detailed_results.csv：每个问题的详细评估结果

技术要点解析

文本分块策略：使用递归字符文本分割器，设置512个token的块大小和50个token的重叠区域，确保上下文连贯性。
问题多样性：通过五种不同类型的问题（简短、详细、直接、隐含、模糊）全面测试模型在不同场景下的表现。
维度处理：不同模型的嵌入维度各不相同（768/1024/1536维），pgai会自动处理这些差异。
性能指标：评估主要关注模型的检索准确率和上下文理解能力。

实际应用建议

小型应用：OpenAI text-embedding-3-small模型在性能和成本间提供了良好平衡。
高精度需求：BGE Large和OpenAI text-embedding-3-large模型适合对精度要求高的场景。
本地部署：Nomic embed-text模型适合需要本地化部署的场景。
混合使用：可以考虑根据查询类型动态选择模型，简单查询使用小型模型，复杂查询使用大型模型。

通过本评估框架，开发者可以科学地选择最适合自己应用场景的嵌入模型，优化语义搜索系统的性能和成本效益。

pgai Helper functions for AI workflows 项目地址: https://gitcode.com/gh_mirrors/pg/pgai

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考