使用最大边际相关性 (MMR) 进行示例选择：提高AI多样性的策略

最新推荐文章于 2025-12-14 20:30:00 发布

原创

最新推荐文章于 2025-12-14 20:30:00 发布 · 363 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #服务器 #linux #python

# 使用最大边际相关性 (MMR) 进行示例选择：提高AI多样性的策略

## 引言

在构建智能系统时，选择合适的训练示例是优化模型性能的关键步骤。传统的示例选择通常只关注相似性，但这种方法可能导致缺乏多样性。本文将介绍一种先进的示例选择方法：最大边际相关性 (MMR)，同时兼顾相似性和多样性，提升模型的泛化能力。

## 主要内容

### 最小化相似性和最大化多样性

最大边际相关性 (MMR) 示例选择通过寻找与输入最相似的嵌入，并在迭代过程中考虑已选择示例的多样性来优化选择过程。具体而言：

- **相似性**：通过计算输入和候选示例之间的余弦相似度来衡量。
- **多样性**：在添加新示例时，通过引入已选择示例的惩罚项来鼓励多样性。

### 实现技术

该方法依赖于大规模的向量存储和快速嵌入计算技术，可以通过库如`FAISS`和`OpenAIEmbeddings`实现。

## 代码示例

下面的代码演示了MMR示例选择的具体实现：

```python
from langchain_community.vectorstores import FAISS
from langchain_core.example_selectors import MaxMarginalRelevanceExampleSelector
from langchain_core.prompts import FewShotPromptTemplate, PromptTemplate
from langchain_openai import OpenAIEmbeddings

example_prompt = PromptTemplate(
    input_variables=["input", "output"],
    template="Input: {input}\nOutput: {output}",
)

# 示例数据：创建反义词
examples = [
    {"input": "happy", "output": "sad"},
    {"input": "tall", "output": "short"},
    {"input": "energetic", "o