嵌入模型集成：Embedding Models在LlamaIndex中的配置

最新推荐文章于 2025-12-02 15:55:42 发布

原创最新推荐文章于 2025-12-02 15:55:42 发布 · 716 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#embedding #人工智能 #嵌入模型集成 #在LlamaIndex中的配置

摘要

嵌入模型(Embedding Models)在LlamaIndex中起着至关重要的作用，它们将文本转换为高维向量表示，使得语义相似的文本在向量空间中距离更近。这种向量化表示是现代检索增强生成(RAG)系统的基础，直接影响着系统的检索精度和整体性能。本文将深入探讨LlamaIndex中嵌入模型的集成方式、配置选项、主流模型支持以及在实际应用中的最佳实践。

我们将从基本概念入手，介绍嵌入模型的工作原理，然后详细讲解如何在LlamaIndex中配置和使用各种类型的嵌入模型，包括OpenAI、Hugging Face、本地模型以及其他云服务商提供的模型。同时，我们还将演示如何自定义嵌入模型以满足特殊需求，并分享一些性能优化和故障排除的经验。

正文

1. 引言

在前面的文章中，我们详细介绍了LlamaIndex的各种核心组件，包括索引、查询引擎、检索器、后处理器和响应合成器等。这些组件构成了LlamaIndex的强大功能体系，但在整个RAG流程中，还有一个基础而关键的组成部分——嵌入模型。

嵌入模型负责将文本转换为数值向量，这是实现语义搜索的关键步骤。没有高质量的嵌入模型，就无法构建高效的检索系统。因此，正确配置和使用嵌入模型对于构建成功的LlamaIndex应用至关重要。

2. 嵌入模型基础概念

2.1 什么是嵌入模型

嵌入模型是一种将文本映射到连续向量空间的机器学习模型。它能够捕捉文本的语义信息，使得语义相近的文本在向量空间中距离较近，而语义差异较大的文本距离较远。

2.2 嵌入模型的特点

语义表示：能够捕获文本的深层语义信息
维度压缩：将高维稀疏的文本表示压缩为低维稠密向量
相似性计算：支持通过向量距离计算文本相似性
泛化能力：能够在训练数据之外的文本上表现良好

2.3 嵌入模型在LlamaIndex中的作用

在LlamaIndex中，嵌入模型主要用于以下几个方面：

文档嵌入：将文档切分后的文本块转换为向量
查询嵌入：将用户查询转换为向量用于相似性搜索
语义检索：基于向量相似性进行语义匹配

3. LlamaIndex中的嵌入模型架构

3.1 嵌入模型接口设计

LlamaIndex采用统一的接口设计来支持各种嵌入模型，核心接口是[BaseEmbedding](file:///E:/project/llama_index/llama-index-core/llama_index/core/base/embeddings/base.py#L51-L280)类：

from llama_index.core.base.embeddings.base import BaseEmbedding

class BaseEmbedding:
    """嵌入模型基类"""
    
    def get_text_embedding(self, text: str) -> List[float]:
        """获取单个文本的嵌入向量"""
        pass
    
    def get_text_embedding_batch(
        self, texts: List[str], **kwargs: Any
    ) -> List[List[float]]:
        """批量获取文本嵌入向量"""
        pass
    
    def get_query_embedding(self, query: str) -> List[float]:
        """获取查询文本的嵌入向量"""
        pass

3.2 嵌入模型配置机制

LlamaIndex提供了灵活的嵌入模型配置机制，支持全局设置和局部设置：

from llama_index.core import Settings
from llama_index.embeddings.openai import OpenAIEmbedding

# 全局设置嵌入模型
Settings.embed_model = OpenAIEmbedding(
    model="text-embedding-3-small"
)

# 局部设置嵌入模型
index = VectorStoreIndex.from_documents(
    documents, 
    embed_model=OpenAIEmbedding(model="text-embedding-3-large")
)

4. 主流嵌入模型集成

4.1 OpenAI嵌入模型

OpenAI提供了高质量的嵌入模型，是许多应用场景下的首选：

from llama_index.embeddings.openai import OpenAIEmbedding

# 基本配置
embed_model = OpenAIEmbedding(
    model="text-embedding-3-small",  # 或 "text-embedding-3-large"
    dimensions=1536,  # 可选，指定输出维度
    timeout=60,       # 请求超时时间
)

# 使用示例
text = "人工智能是计算机科学的一个分支"
embedding = embed_model.get_text_embedding(text)
print(f"嵌入向量维度: {len(embedding)}")

# 批量处理
texts = [
    "人工智能是计算机科学的一个分支",
    "机器学习是人工智能的重要组成部分",
    "深度学习在图像识别领域表现出色"
]
embeddings = embed_model.get_text_embedding_batch(texts)
print(f"批量嵌入结果数量: {len(embeddings)}")

4.2 Hugging Face嵌入模型

对于希望使用开源模型或本地部署的场景，Hugging Face提供了丰富的选择：

from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# 使用预训练模型
embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-small-en-v1.5",
    max_length=512,
    cache_folder="./model_cache"  # 模型缓存路径
)

# 使用本地模型
embed_model_local = HuggingFaceEmbedding(
    model_name="./models/bge-small-en-v1.5",  # 本地模型路径
    max_length=512
)

# 获取嵌入
text = "Natural language processing is a fascinating field"
embedding = embed_model.get_text_embedding(text)
print(f"嵌入向量维度: {len(embedding)}")

4.3 本地轻量级嵌入模型

对于资源受限的环境，可以使用轻量级的本地嵌入模型：

from llama_index.embeddings.fastembed import FastEmbedEmbedding

# 使用FastEmbed快速嵌入模型
embed_model = FastEmbedEmbedding(
    model_name="BAAI/bge-small-en-v1.5",
    max_length=512
)

# 获取嵌入
embedding = embed_model.get_text_embedding("This is a sample text")
print(f"嵌入向量维度: {len(embedding)}")

4.4 云服务商嵌入模型

各大云服务商也提供了自己的嵌入模型服务：

# Azure OpenAI嵌入模型
from llama_index.embeddings.azure_openai import AzureOpenAIEmbedding

azure_embed_model = AzureOpenAIEmbedding(
    model="text-embedding-ada-002",
    deployment_name="your-deployment-name",
    api_key="your-api-key",
    azure_endpoint="https://your-resource-name.openai.azure.com/"
)

# AWS Bedrock嵌入模型
from llama_index.embeddings.bedrock import BedrockEmbedding

bedrock_embed_model = BedrockEmbedding(
    model_name="amazon.titan-embed-text-v1",
    region_name="us-east-1"
)

# Google Vertex AI嵌入模型
from llama_index.embeddings.vertex import VertexTextEmbedding

vertex_embed_model = VertexTextEmbedding(
    model_name="textembedding-gecko@003",
    project="your-project-id",
    location="us-central1"
)

5. 嵌入模型配置选项

5.1 模型选择参数

不同嵌入模型有不同的配置选项，常见的包括：

from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# OpenAI嵌入模型配置
openai_embed_model = OpenAIEmbedding(
    model="text-embedding-3-small",
    dimensions=1536,         # 输出维度
    timeout=60,              # 超时时间
    embed_batch_size=100,    # 批处理大小
    additional_kwargs={}     # 额外参数
)

# Hugging Face嵌入模型配置
hf_embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-small-en-v1.5",
    max_length=512,          # 最大序列长度
    pooling="cls",           # 池化策略: cls, mean
    normalize=True,          # 是否归一化
    query_instruction="",    # 查询指令前缀
    text_instruction="",     # 文本指令前缀
    cache_folder="./cache"   # 模型缓存目录
)

5.2 性能优化配置

为了提高嵌入模型的性能，可以进行以下配置：

# 批处理优化
class OptimizedEmbeddingConfig:
    def __init__(self):
        self.embed_model = OpenAIEmbedding(
            model="text-embedding-3-small",
            embed_batch_size=500,  # 增大批处理大小
            timeout=120            # 增加超时时间
        )
    
    def batch_embed_documents(self, texts):
        """批量嵌入文档"""
        # 分批处理大量文本
        batch_size = self.embed_model.embed_batch_size
        embeddings = []
        
        for i in range(0, len(texts), batch_size):
            batch = texts[i:i+batch_size]
            batch_embeddings = self.embed_model.get_text_embedding_batch(batch)
            embeddings.extend(batch_embeddings)
        
        return embeddings

# 使用示例
config = OptimizedEmbeddingConfig()
large_text_collection = ["文本1", "文本2", "..."]  # 大量文本
embeddings = config.batch_embed_documents(large_text_collection)

6. 自定义嵌入模型

6.1 继承BaseEmbedding类

from llama_index.core.base.embeddings.base import BaseEmbedding
from typing import List, Optional
import numpy as np

class CustomEmbedding(BaseEmbedding):
    """自定义嵌入模型"""
    
    def __init__(self, model_name: str = "custom", **kwargs):
        self.model_name = model_name
        super().__init__(**kwargs)
    
    def _get_text_embedding(self, text: str) -> List[float]:
        """获取单个文本的嵌入向量"""
        # 这里实现具体的嵌入逻辑
        # 示例：简单的基于词频的嵌入
        words = text.lower().split()
        # 简化的嵌入向量生成（仅作示例）
        embedding = [len(words), len(text), text.count(' ')]
        # 归一化到标准维度（示例为1536维）
        full_embedding = [0.0] * 1536
        for i, val in enumerate(embedding[:min(1536, len(embedding))]):
            full_embedding[i] = float(val) / (1 + abs(val))
        return full_embedding
    
    def _get_text_embeddings(self, texts: List[str]) -> List[List[float]]:
        """批量获取文本嵌入向量"""
        return [self._get_text_embedding(text) for text in texts]
    
    def _get_query_embedding(self, query: str) -> List[float]:
        """获取查询文本的嵌入向量"""
        # 查询可能需要特殊的处理方式
        return self._get_text_embedding(query)

# 使用自定义嵌入模型
custom_embed_model = CustomEmbedding(model_name="my-custom-model")
embedding = custom_embed_model.get_text_embedding("这是一个测试文本")
print(f"自定义嵌入维度: {len(embedding)}")

6.2 集成外部嵌入服务

import requests
from llama_index.core.base.embeddings.base import BaseEmbedding

class ExternalAPIEmbedding(BaseEmbedding):
    """外部API嵌入模型"""
    
    def __init__(self, api_url: str, api_key: str, **kwargs):
        self.api_url = api_url
        self.api_key = api_key
        super().__init__(**kwargs)
    
    def _get_text_embedding(self, text: str) -> List[float]:
        """通过外部API获取嵌入向量"""
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }
        
        payload = {
            "input": text,
            "model": "text-embedding-model"
        }
        
        try:
            response = requests.post(
                self.api_url, 
                headers=headers, 
                json=payload,
                timeout=30
            )
            response.raise_for_status()
            result = response.json()
            return result["data"][0]["embedding"]
        except Exception as e:
            raise RuntimeError(f"获取嵌入向量失败: {str(e)}")
    
    def _get_text_embeddings(self, texts: List[str]) -> List[List[float]]:
        """批量获取嵌入向量"""
        headers = {
            "Authorization": f"Bearer {self.api_key}",
            "Content-Type": "application/json"
        }
        
        payload = {
            "input": texts,
            "model": "text-embedding-model"
        }
        
        try:
            response = requests.post(
                self.api_url, 
                headers=headers, 
                json=payload,
                timeout=60
            )
            response.raise_for_status()
            result = response.json()
            return [item["embedding"] for item in result["data"]]
        except Exception as e:
            raise RuntimeError(f"批量获取嵌入向量失败: {str(e)}")

# 使用外部API嵌入模型
# external_embed_model = ExternalAPIEmbedding(
#     api_url="https://api.example.com/v1/embeddings",
#     api_key="your-api-key"
# )

7. 实际应用案例

7.1 多语言嵌入模型应用

from llama_index.embeddings.huggingface import HuggingFaceEmbedding

class MultilingualEmbeddingSystem:
    """多语言嵌入系统"""
    
    def __init__(self):
        # 初始化多种语言的嵌入模型
        self.models = {
            "en": HuggingFaceEmbedding(
                model_name="BAAI/bge-m3",
                max_length=8192
            ),
            "zh": HuggingFaceEmbedding(
                model_name="aspire/acge_text_embedding",
                max_length=8192
            ),
            "multi": HuggingFaceEmbedding(
                model_name="intfloat/multilingual-e5-large",
                max_length=512
            )
        }
    
    def detect_language(self, text: str) -> str:
        """简单语言检测"""
        # 简化的语言检测逻辑
        chinese_chars = len([c for c in text if '\u4e00' <= c <= '\u9fff'])
        if chinese_chars > len(text) * 0.3:
            return "zh"
        else:
            return "en"
    
    def get_embedding(self, text: str) -> List[float]:
        """获取文本嵌入"""
        lang = self.detect_language(text)
        
        # 对于中文优先使用中文模型
        if lang == "zh":
            return self.models["zh"].get_text_embedding(text)
        else:
            # 英文或其他语言使用多语言模型
            return self.models["multi"].get_text_embedding(text)
    
    def similarity_search(self, query: str, documents: List[str], top_k: int = 5):
        """相似性搜索"""
        query_embedding = self.get_embedding(query)
        doc_embeddings = [self.get_embedding(doc) for doc in documents]
        
        # 计算相似度
        similarities = []
        for i, doc_embedding in enumerate(doc_embeddings):
            # 简化的余弦相似度计算
            dot_product = sum(a * b for a, b in zip(query_embedding, doc_embedding))
            norm_a = sum(a * a for a in query_embedding) ** 0.5
            norm_b = sum(b * b for b in doc_embedding) ** 0.5
            similarity = dot_product / (norm_a * norm_b + 1e-8)
            similarities.append((i, similarity))
        
        # 排序并返回top_k结果
        similarities.sort(key=lambda x: x[1], reverse=True)
        return [(documents[i], score) for i, score in similarities[:top_k]]

# 使用示例
multilingual_system = MultilingualEmbeddingSystem()

documents = [
    "人工智能是计算机科学的一个重要分支",
    "Artificial intelligence is a crucial branch of computer science",
    "机器学习使计算机能够从数据中学习",
    "Machine learning enables computers to learn from data"
]

results = multilingual_system.similarity_search(
    "什么是人工智能？", 
    documents, 
    top_k=2
)

for doc, score in results:
    print(f"文档: {doc}")
    print(f"相似度: {score:.4f}\n")

7.2 领域专用嵌入模型

from llama_index.embeddings.huggingface import HuggingFaceEmbedding

class DomainSpecificEmbedding:
    """领域专用嵌入模型"""
    
    def __init__(self, domain: str = "general"):
        self.domain = domain
        self.model = self._load_domain_model(domain)
    
    def _load_domain_model(self, domain: str):
        """加载领域专用模型"""
        domain_models = {
            "medical": "medicalai/ClinicalBERT",
            "legal": "law-ai/CustomLegalBERT",
            "financial": "ProsusAI/finbert",
            "scientific": "allenai/scibert_scivocab_uncased",
            "general": "BAAI/bge-small-en-v1.5"
        }
        
        model_name = domain_models.get(domain, domain_models["general"])
        return HuggingFaceEmbedding(model_name=model_name)
    
    def get_medical_embedding(self, text: str) -> List[float]:
        """获取医疗领域嵌入"""
        if self.domain != "medical":
            # 临时切换到医疗模型
            temp_model = HuggingFaceEmbedding(model_name="medicalai/ClinicalBERT")
            return temp_model.get_text_embedding(text)
        return self.model.get_text_embedding(text)
    
    def get_legal_embedding(self, text: str) -> List[float]:
        """获取法律领域嵌入"""
        if self.domain != "legal":
            temp_model = HuggingFaceEmbedding(model_name="law-ai/CustomLegalBERT")
            return temp_model.get_text_embedding(text)
        return self.model.get_text_embedding(text)

# 使用示例
medical_embedding = DomainSpecificEmbedding("medical")
legal_embedding = DomainSpecificEmbedding("legal")

medical_text = "患者出现高血压症状，需要进行进一步检查"
legal_text = "合同双方应当按照约定履行各自义务"

med_embedding = medical_embedding.get_medical_embedding(medical_text)
leg_embedding = legal_embedding.get_legal_embedding(legal_text)

print(f"医疗文本嵌入维度: {len(med_embedding)}")
print(f"法律文本嵌入维度: {len(leg_embedding)}")

8. 性能优化策略

8.1 嵌入缓存机制

import hashlib
import json
from typing import List, Dict

class CachedEmbeddingModel:
    """带缓存的嵌入模型"""
    
    def __init__(self, base_embed_model, cache_file: str = "embedding_cache.json"):
        self.base_model = base_embed_model
        self.cache_file = cache_file
        self.cache = self._load_cache()
    
    def _load_cache(self) -> Dict[str, List[float]]:
        """加载缓存"""
        try:
            with open(self.cache_file, 'r', encoding='utf-8') as f:
                return json.load(f)
        except FileNotFoundError:
            return {}
    
    def _save_cache(self):
        """保存缓存"""
        with open(self.cache_file, 'w', encoding='utf-8') as f:
            json.dump(self.cache, f, ensure_ascii=False, indent=2)
    
    def _generate_cache_key(self, text: str) -> str:
        """生成缓存键"""
        return hashlib.md5(text.encode('utf-8')).hexdigest()
    
    def get_text_embedding(self, text: str) -> List[float]:
        """获取文本嵌入（带缓存）"""
        cache_key = self._generate_cache_key(text)
        
        # 检查缓存
        if cache_key in self.cache:
            print("从缓存获取嵌入向量")
            return self.cache[cache_key]
        
        # 计算嵌入并向缓存添加
        embedding = self.base_model.get_text_embedding(text)
        self.cache[cache_key] = embedding
        self._save_cache()
        
        return embedding
    
    def get_text_embedding_batch(self, texts: List[str]) -> List[List[float]]:
        """批量获取嵌入向量（带缓存）"""
        results = []
        uncached_texts = []
        uncached_indices = []
        
        # 检查缓存
        for i, text in enumerate(texts):
            cache_key = self._generate_cache_key(text)
            if cache_key in self.cache:
                results.append(self.cache[cache_key])
            else:
                results.append(None)  # 占位符
                uncached_texts.append(text)
                uncached_indices.append(i)
        
        # 批量计算未缓存的嵌入
        if uncached_texts:
            uncached_embeddings = self.base_model.get_text_embedding_batch(uncached_texts)
            
            # 更新结果和缓存
            for idx, embedding in zip(uncached_indices, uncached_embeddings):
                results[idx] = embedding
                cache_key = self._generate_cache_key(texts[idx])
                self.cache[cache_key] = embedding
            
            self._save_cache()
        
        return results

# 使用示例
# from llama_index.embeddings.openai import OpenAIEmbedding
# base_model = OpenAIEmbedding()
# cached_model = CachedEmbeddingModel(base_model)
# embedding = cached_model.get_text_embedding("测试文本")

8.2 并行处理优化

import asyncio
from concurrent.futures import ThreadPoolExecutor
from typing import List

class ParallelEmbeddingProcessor:
    """并行嵌入处理器"""
    
    def __init__(self, embed_model, max_workers: int = 4):
        self.embed_model = embed_model
        self.max_workers = max_workers
    
    def process_batch_sync(self, texts: List[str]) -> List[List[float]]:
        """同步批量处理"""
        # 将大批次拆分为小批次并行处理
        batch_size = max(1, len(texts) // self.max_workers)
        batches = [texts[i:i+batch_size] for i in range(0, len(texts), batch_size)]
        
        results = []
        with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
            futures = [executor.submit(self.embed_model.get_text_embedding_batch, batch) 
                      for batch in batches]
            
            for future in futures:
                batch_results = future.result()
                results.extend(batch_results)
        
        return results
    
    async def process_batch_async(self, texts: List[str]) -> List[List[float]]:
        """异步批量处理"""
        loop = asyncio.get_event_loop()
        
        # 将大批次拆分为小批次并行处理
        batch_size = max(1, len(texts) // self.max_workers)
        batches = [texts[i:i+batch_size] for i in range(0, len(texts), batch_size)]
        
        # 异步执行
        tasks = [
            loop.run_in_executor(
                ThreadPoolExecutor(max_workers=1),
                self.embed_model.get_text_embedding_batch,
                batch
            )
            for batch in batches
        ]
        
        results = []
        for task in asyncio.as_completed(tasks):
            batch_results = await task
            results.extend(batch_results)
        
        return results

# 使用示例
# processor = ParallelEmbeddingProcessor(embed_model, max_workers=4)
# embeddings = processor.process_batch_sync(large_text_list)

9. 故障排除和最佳实践

9.1 常见问题及解决方案

API密钥问题：

import os
from llama_index.embeddings.openai import OpenAIEmbedding

def setup_openai_embedding_safely():
    """安全地设置OpenAI嵌入模型"""
    api_key = os.getenv("OPENAI_API_KEY")
    
    if not api_key:
        print("警告: 未找到OPENAI_API_KEY环境变量")
        print("请设置环境变量或使用本地嵌入模型")
        # 使用本地模型作为备选方案
        from llama_index.embeddings.huggingface import HuggingFaceEmbedding
        return HuggingFaceEmbedding(model_name="BAAI/bge-small-en-v1.5")
    
    try:
        embed_model = OpenAIEmbedding(api_key=api_key)
        # 测试连接
        test_embedding = embed_model.get_text_embedding("test")
        print("OpenAI嵌入模型配置成功")
        return embed_model
    except Exception as e:
        print(f"OpenAI嵌入模型配置失败: {e}")
        # 备选方案
        from llama_index.embeddings.huggingface import HuggingFaceEmbedding
        return HuggingFaceEmbedding(model_name="BAAI/bge-small-en-v1.5")

# 安全地初始化嵌入模型
embed_model = setup_openai_embedding_safely()

模型加载失败：

from llama_index.embeddings.huggingface import HuggingFaceEmbedding

def load_hf_model_with_fallback(model_name: str):
    """加载HuggingFace模型（带备选方案）"""
    try:
        model = HuggingFaceEmbedding(model_name=model_name)
        # 测试模型
        test_embedding = model.get_text_embedding("test")
        print(f"成功加载模型: {model_name}")
        return model
    except Exception as e:
        print(f"加载模型 {model_name} 失败: {e}")
        
        # 尝试备选模型
        fallback_models = [
            "BAAI/bge-small-en-v1.5",
            "sentence-transformers/all-MiniLM-L6-v2",
            "intfloat/e5-small-v2"
        ]
        
        for fallback_model in fallback_models:
            try:
                model = HuggingFaceEmbedding(model_name=fallback_model)
                test_embedding = model.get_text_embedding("test")
                print(f"成功加载备选模型: {fallback_model}")
                return model
            except Exception as e:
                print(f"备选模型 {fallback_model} 也加载失败: {e}")
                continue
        
        # 如果所有模型都失败，使用Mock模型
        from llama_index.core.embeddings import MockEmbedding
        print("所有模型加载失败，使用Mock模型")
        return MockEmbedding(embed_dim=384)

# 使用示例
embed_model = load_hf_model_with_fallback("non-existent-model")

9.2 最佳实践建议

模型选择策略：

def select_optimal_embedding_model(text_length: int, use_case: str, resource_limit: str):
    """选择最优嵌入模型"""
    if resource_limit == "low":
        # 资源受限情况
        if use_case == "semantic_search":
            return "BAAI/bge-small-en-v1.5"
        else:
            return "sentence-transformers/all-MiniLM-L6-v2"
    
    elif resource_limit == "medium":
        # 中等资源配置
        if text_length > 1000:
            return "BAAI/bge-base-en-v1.5"  # 处理长文本
        else:
            return "BAAI/bge-small-en-v1.5"
    
    else:
        # 高资源配置
        if use_case == "semantic_search":
            return "BAAI/bge-large-en-v1.5"
        elif use_case == "reranking":
            return "BAAI/bge-reranker-large"
        else:
            return "text-embedding-3-large"

# 使用示例
optimal_model = select_optimal_embedding_model(
    text_length=500,
    use_case="semantic_search",
    resource_limit="medium"
)
print(f"推荐模型: {optimal_model}")

嵌入模型评估：

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

class EmbeddingEvaluator:
    """嵌入模型评估器"""
    
    def __init__(self, embed_model):
        self.embed_model = embed_model
    
    def evaluate_semantic_similarity(self, test_pairs: List[tuple]):
        """评估语义相似性"""
        similarities = []
        human_scores = []
        
        for text1, text2, human_score in test_pairs:
            emb1 = np.array(self.embed_model.get_text_embedding(text1)).reshape(1, -1)
            emb2 = np.array(self.embed_model.get_text_embedding(text2)).reshape(1, -1)
            
            cos_sim = cosine_similarity(emb1, emb2)[0][0]
            similarities.append(cos_sim)
            human_scores.append(human_score)
        
        # 计算相关性
        correlation = np.corrcoef(similarities, human_scores)[0, 1]
        return correlation
    
    def benchmark_speed(self, texts: List[str]):
        """基准测试速度"""
        import time
        
        start_time = time.time()
        embeddings = self.embed_model.get_text_embedding_batch(texts)
        end_time = time.time()
        
        processing_time = end_time - start_time
        texts_per_second = len(texts) / processing_time
        
        return {
            "total_time": processing_time,
            "texts_per_second": texts_per_second,
            "avg_time_per_text": processing_time / len(texts)
        }

# 使用示例
# evaluator = EmbeddingEvaluator(embed_model)
# 
# # 语义相似性测试数据
# test_data = [
#     ("猫坐在垫子上", "一只猫在坐垫上休息", 0.9),
#     ("今天天气很好", "人工智能发展迅速", 0.1),
#     ("我喜欢读书", "阅读是我爱好", 0.8)
# ]
# 
# correlation = evaluator.evaluate_semantic_similarity(test_data)
# print(f"语义相似性相关系数: {correlation:.4f}")
# 
# # 速度基准测试
# test_texts = ["测试文本"] * 100
# speed_metrics = evaluator.benchmark_speed(test_texts)
# print(f"速度基准测试: {speed_metrics}")