Timescale/pgai项目:OpenAI与Nomic等主流嵌入模型的对比评估指南

Timescale/pgai项目:OpenAI与Nomic等主流嵌入模型的对比评估指南

pgai Helper functions for AI workflows pgai 项目地址: https://gitcode.com/gh_mirrors/pg/pgai

引言

在当今AI驱动的应用开发中,选择合适的文本嵌入模型对构建高效的语义搜索系统至关重要。Timescale/pgai项目提供了强大的工具集,使开发者能够在PostgreSQL环境中直接比较不同嵌入模型的性能表现。本文将详细介绍如何使用pgai扩展对OpenAI、Nomic和BGE等主流嵌入模型进行全面评估。

评估准备

环境要求

  1. Docker环境:确保已安装Docker和Docker Compose
  2. OpenAI API密钥:用于访问OpenAI的嵌入模型服务
  3. PostgreSQL数据库:需安装pgai扩展
  4. 评估数据集:Paul Graham的散文集,包含丰富的文本内容

关键配置参数

评估过程中需要关注以下核心参数:

NUM_CHUNKS = 20                # 评估的随机文本块数量
NUM_QUESTIONS_PER_CHUNK = 20   # 每个文本块生成的问题数量
TOP_K = 10                     # 检索最相似文本块的数量
QUESTION_DISTRIBUTION = {      # 问题类型分布
    'short': 4,    # 简短问题(少于10个词)
    'long': 4,     # 需要详细回答的问题
    'direct': 4,   # 关于明确信息的问题
    'implied': 4,  # 需要上下文理解的问题
    'unclear': 4   # 模糊或模棱两可的问题
}

环境搭建步骤

1. 启动服务

使用提供的Docker Compose文件启动评估环境:

docker compose up -d

2. 连接数据库

docker compose exec -ti db psql

3. 安装模型

根据评估需求,可选择安装不同的嵌入模型:

docker compose exec ollama ollama pull nomic-embed-text
docker compose exec ollama ollama pull bge-large

4. 启用pgai扩展

在PostgreSQL中执行:

CREATE EXTENSION IF NOT EXISTS ai CASCADE;

数据集准备

1. 创建基础表结构

CREATE TABLE pg_essays (
    id SERIAL PRIMARY KEY,
    title TEXT,
    date TEXT,
    text TEXT
);

2. 加载数据集

SELECT ai.load_dataset('sgoel9/paul_graham_essays', 
       table_name => 'pg_essays', 
       if_table_exists => 'append');

模型向量化配置

pgai支持多种嵌入模型的向量化配置,以下是四种主流模型的配置示例:

1. Nomic embed-text模型

SELECT ai.create_vectorizer(
   'pg_essays'::regclass,
   loading => ai.loading_column('text'),
   destination => ai.destination_table('essays_nomic_embeddings'),
   embedding => ai.embedding_ollama('nomic-embed-text', 768),
   chunking => ai.chunking_recursive_character_text_splitter(512, 50)
);

2. OpenAI小型模型

SELECT ai.create_vectorizer(
   'pg_essays'::regclass,
   loading => ai.loading_column('text'),
   destination => ai.destination_table('essays_openai_small_embeddings'),
   embedding => ai.embedding_openai('text-embedding-3-small', 768),
   chunking => ai.chunking_recursive_character_text_splitter(512, 50)
);

3. BGE大型模型

SELECT ai.create_vectorizer(
   'pg_essays'::regclass,
   loading => ai.loading_column('text'),
   destination => ai.destination_table('essays_bge_large_embeddings'),
   embedding => ai.embedding_ollama('bge-large', 1024),
   chunking => ai.chunking_recursive_character_text_splitter(512, 50)
);

4. OpenAI大型模型

SELECT ai.create_vectorizer(
   'pg_essays'::regclass,
   loading => ai.loading_column('text'),
   destination => ai.destination_table('essays_openai_large_embeddings'), 
   embedding => ai.embedding_openai('text-embedding-3-large', 1536),
   chunking => ai.chunking_recursive_character_text_splitter(512, 50)
);

评估流程

1. 获取评估文本块

evaluator = StepByStepEvaluator()
chunks = evaluator.step1_get_chunks()
pd.DataFrame(chunks).to_csv('chunks.csv')

2. 生成评估问题

chunks = pd.read_csv('chunks.csv', index_col=0).to_dict('records')
evaluator.chunks = chunks
questions = evaluator.step2_generate_questions()
pd.DataFrame(questions).to_csv('questions.csv')

3. 执行模型评估

results = evaluator.step3_evaluate_models()  # 从questions.csv读取
pd.DataFrame(results).to_csv('results.csv')
evaluator.print_results()

评估结果分析

评估完成后,系统会生成以下输出文件:

  1. chunks.csv:从数据库中随机选取的文本块
  2. questions.csv:为每个文本块生成的问题集
  3. results.csv:各模型的整体性能指标
  4. detailed_results.csv:每个问题的详细评估结果

技术要点解析

  1. 文本分块策略:使用递归字符文本分割器,设置512个token的块大小和50个token的重叠区域,确保上下文连贯性。

  2. 问题多样性:通过五种不同类型的问题(简短、详细、直接、隐含、模糊)全面测试模型在不同场景下的表现。

  3. 维度处理:不同模型的嵌入维度各不相同(768/1024/1536维),pgai会自动处理这些差异。

  4. 性能指标:评估主要关注模型的检索准确率和上下文理解能力。

实际应用建议

  1. 小型应用:OpenAI text-embedding-3-small模型在性能和成本间提供了良好平衡。

  2. 高精度需求:BGE Large和OpenAI text-embedding-3-large模型适合对精度要求高的场景。

  3. 本地部署:Nomic embed-text模型适合需要本地化部署的场景。

  4. 混合使用:可以考虑根据查询类型动态选择模型,简单查询使用小型模型,复杂查询使用大型模型。

通过本评估框架,开发者可以科学地选择最适合自己应用场景的嵌入模型,优化语义搜索系统的性能和成本效益。

pgai Helper functions for AI workflows pgai 项目地址: https://gitcode.com/gh_mirrors/pg/pgai

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

资源下载链接为: https://pan.quark.cn/s/6b3e936ec683 在英语学习过程中,一款优秀的词典工具至关重要。Vocabulary.com Dictionary 和欧陆词典(EuroDict)作为两款备受推崇的在线词汇资源,各具特色且能够相互补充,为用户打造全面的词汇学习体验。 Vocabulary.com Dictionary 不仅提供单词的标准释义,还特别注重词汇的实际运用。它涵盖了丰富的例句、短语和习语,帮助用户掌握词汇在不同语境中的使用方式。此外,Vocabulary.com 设有互动学习功能,通过游戏和挑战的形式,让学习者在趣味中巩固新词汇。其“智能学习计划”能够根据用户的学习进度和能力定制个性化学习路径,是提升词汇量的有效工具。 之配合的欧陆词典则以多语言支持和深度词汇解析闻名。它不仅提供英文词汇的解释,还涵盖多种语言对照,非常适合多语种学习者。欧陆词典还提供同义词、反义词、派生词等扩展信息,以及丰富的短语和习语,帮助用户全面理解词汇的多维度含义。 在实际使用时,学习者可以先通过 Vocabulary.com Dictionary 查找单词的基本信息和应用场景,再借助欧陆词典拓展对词汇的多语言理解,尤其是对比不同语言中词汇的对应关系。Vocabulary.com 的互动学习模式适合日常学习,而欧陆词典则更适合深度研究和词汇拓展。 压缩包中的文件可能包括“Vocabulary.com Dictionary.jpg”,这可能是词典的截图或封面,用于视觉介绍;“Vocabulary.com Dictionary.mdd”和“.mdx”文件则是欧陆词典的数据文件,用于存储索引和数据,方便离线查询。将这些文件下载到本地,即使在无网络的情况下,也能使用部分功能。 Vocabulary.com Dictionary 和欧陆词典的结合使用,能为学习者
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

余印榕

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值