Timescale/pgai项目:OpenAI与Nomic等主流嵌入模型的对比评估指南
pgai Helper functions for AI workflows 项目地址: https://gitcode.com/gh_mirrors/pg/pgai
引言
在当今AI驱动的应用开发中,选择合适的文本嵌入模型对构建高效的语义搜索系统至关重要。Timescale/pgai项目提供了强大的工具集,使开发者能够在PostgreSQL环境中直接比较不同嵌入模型的性能表现。本文将详细介绍如何使用pgai扩展对OpenAI、Nomic和BGE等主流嵌入模型进行全面评估。
评估准备
环境要求
- Docker环境:确保已安装Docker和Docker Compose
- OpenAI API密钥:用于访问OpenAI的嵌入模型服务
- PostgreSQL数据库:需安装pgai扩展
- 评估数据集:Paul Graham的散文集,包含丰富的文本内容
关键配置参数
评估过程中需要关注以下核心参数:
NUM_CHUNKS = 20 # 评估的随机文本块数量
NUM_QUESTIONS_PER_CHUNK = 20 # 每个文本块生成的问题数量
TOP_K = 10 # 检索最相似文本块的数量
QUESTION_DISTRIBUTION = { # 问题类型分布
'short': 4, # 简短问题(少于10个词)
'long': 4, # 需要详细回答的问题
'direct': 4, # 关于明确信息的问题
'implied': 4, # 需要上下文理解的问题
'unclear': 4 # 模糊或模棱两可的问题
}
环境搭建步骤
1. 启动服务
使用提供的Docker Compose文件启动评估环境:
docker compose up -d
2. 连接数据库
docker compose exec -ti db psql
3. 安装模型
根据评估需求,可选择安装不同的嵌入模型:
docker compose exec ollama ollama pull nomic-embed-text
docker compose exec ollama ollama pull bge-large
4. 启用pgai扩展
在PostgreSQL中执行:
CREATE EXTENSION IF NOT EXISTS ai CASCADE;
数据集准备
1. 创建基础表结构
CREATE TABLE pg_essays (
id SERIAL PRIMARY KEY,
title TEXT,
date TEXT,
text TEXT
);
2. 加载数据集
SELECT ai.load_dataset('sgoel9/paul_graham_essays',
table_name => 'pg_essays',
if_table_exists => 'append');
模型向量化配置
pgai支持多种嵌入模型的向量化配置,以下是四种主流模型的配置示例:
1. Nomic embed-text模型
SELECT ai.create_vectorizer(
'pg_essays'::regclass,
loading => ai.loading_column('text'),
destination => ai.destination_table('essays_nomic_embeddings'),
embedding => ai.embedding_ollama('nomic-embed-text', 768),
chunking => ai.chunking_recursive_character_text_splitter(512, 50)
);
2. OpenAI小型模型
SELECT ai.create_vectorizer(
'pg_essays'::regclass,
loading => ai.loading_column('text'),
destination => ai.destination_table('essays_openai_small_embeddings'),
embedding => ai.embedding_openai('text-embedding-3-small', 768),
chunking => ai.chunking_recursive_character_text_splitter(512, 50)
);
3. BGE大型模型
SELECT ai.create_vectorizer(
'pg_essays'::regclass,
loading => ai.loading_column('text'),
destination => ai.destination_table('essays_bge_large_embeddings'),
embedding => ai.embedding_ollama('bge-large', 1024),
chunking => ai.chunking_recursive_character_text_splitter(512, 50)
);
4. OpenAI大型模型
SELECT ai.create_vectorizer(
'pg_essays'::regclass,
loading => ai.loading_column('text'),
destination => ai.destination_table('essays_openai_large_embeddings'),
embedding => ai.embedding_openai('text-embedding-3-large', 1536),
chunking => ai.chunking_recursive_character_text_splitter(512, 50)
);
评估流程
1. 获取评估文本块
evaluator = StepByStepEvaluator()
chunks = evaluator.step1_get_chunks()
pd.DataFrame(chunks).to_csv('chunks.csv')
2. 生成评估问题
chunks = pd.read_csv('chunks.csv', index_col=0).to_dict('records')
evaluator.chunks = chunks
questions = evaluator.step2_generate_questions()
pd.DataFrame(questions).to_csv('questions.csv')
3. 执行模型评估
results = evaluator.step3_evaluate_models() # 从questions.csv读取
pd.DataFrame(results).to_csv('results.csv')
evaluator.print_results()
评估结果分析
评估完成后,系统会生成以下输出文件:
- chunks.csv:从数据库中随机选取的文本块
- questions.csv:为每个文本块生成的问题集
- results.csv:各模型的整体性能指标
- detailed_results.csv:每个问题的详细评估结果
技术要点解析
-
文本分块策略:使用递归字符文本分割器,设置512个token的块大小和50个token的重叠区域,确保上下文连贯性。
-
问题多样性:通过五种不同类型的问题(简短、详细、直接、隐含、模糊)全面测试模型在不同场景下的表现。
-
维度处理:不同模型的嵌入维度各不相同(768/1024/1536维),pgai会自动处理这些差异。
-
性能指标:评估主要关注模型的检索准确率和上下文理解能力。
实际应用建议
-
小型应用:OpenAI text-embedding-3-small模型在性能和成本间提供了良好平衡。
-
高精度需求:BGE Large和OpenAI text-embedding-3-large模型适合对精度要求高的场景。
-
本地部署:Nomic embed-text模型适合需要本地化部署的场景。
-
混合使用:可以考虑根据查询类型动态选择模型,简单查询使用小型模型,复杂查询使用大型模型。
通过本评估框架,开发者可以科学地选择最适合自己应用场景的嵌入模型,优化语义搜索系统的性能和成本效益。
pgai Helper functions for AI workflows 项目地址: https://gitcode.com/gh_mirrors/pg/pgai
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考