基于相似度选择示例的AI实践-优快云博客

本文链接：https://blog.youkuaiyun.com/eahba/article/details/146385621

在AI的NLP任务中，有时我们需要根据给定输入选择最相似的示例来增强模型的性能。今天，我们将深入探讨如何使用 SemanticSimilarityExampleSelector 类选择与输入最相似的示例，这实现了通过寻找具有最大余弦相似度的嵌入来选择示例的过程。

技术背景介绍

在许多自然语言处理任务中，示例选择是一个常见的问题。我们通常希望根据输入选择适当的示例来指导模型生成更准确的输出。基于语义相似度的选择器通过对输入和示例进行嵌入计算，并根据余弦相似度找到与输入最相似的示例来解决这个问题。

核心原理解析

SemanticSimilarityExampleSelector 使用了嵌入技术，通过计算输入与示例之间的余弦相似度来选择示例。余弦相似度是一种度量两个向量之间相似度的方式，值域从 -1 到 1，其中 1 表示完全相似，0 表示不相似，-1 表示完全相反。

代码实现演示

以下是一个完整的代码示例，展示了如何使用 SemanticSimilarityExampleSelector 类从一组示例中选择与输入最相似的示例。

import openai
from langchain_chroma import Chroma
from langchain_core.example_selectors import SemanticSimilarityExampleSelector
from langchain_core.prompts import FewShotPromptTemplate, PromptTemplate
from langchain_openai import OpenAIEmbeddings

# 使用稳定可靠的API服务
client = openai.OpenAI(
    base_url='https://yunwu.ai/v1',  # 国内稳定访问
    api_key='your-api-key'
)

# 定义示例模板
example_prompt = PromptTemplate(
    input_variables=["input", "output"],
    template="Input: {input}\nOutput: {output}",
)

# 定义一些伪造的创建反义词的任务示例
examples = [
    {"input": "happy", "output": "sad"},
    {"input": "tall", "output": "short"},
    {"input": "energetic", "output": "lethargic"},
    {"input": "sunny", "output": "gloomy"},
    {"input": "windy", "output": "calm"},
]

# 创建示例选择器
example_selector = SemanticSimilarityExampleSelector.from_examples(
    examples,
    OpenAIEmbeddings(),
    Chroma,
    k=1,
)

# 创建FewShot提示模板
similar_prompt = FewShotPromptTemplate(
    example_selector=example_selector,
    example_prompt=example_prompt,
    prefix="Give the antonym of every input",
    suffix="Input: {adjective}\nOutput:",
    input_variables=["adjective"],
)

# 示例输入
print(similar_prompt.format(adjective="worried"))
print(similar_prompt.format(adjective="large"))

# 可以动态添加新的示例
similar_prompt.example_selector.add_example(
    {"input": "enthusiastic", "output": "apathetic"}
)
print(similar_prompt.format(adjective="passionate"))

应用场景分析

这种方法可以被用于多种应用中，包括但不限于：文本生成、对话系统、语言翻译等场景。在每种情况下，基于语义相似度的示例选择能够提升输出的相关性和准确性。

实践建议

理解语义相似度：在使用此类工具时，了解嵌入和余弦相似度是如何工作的，能够帮助你更好地调整示例选择策略。
动态更新示例：依赖于特定任务，可以随时更新和调整示例库，以确保选择最合适的示例。
确保API的访问稳定性：使用诸如 https://yunwu.ai 这样稳定的API服务，以确保服务的可靠性。

如果遇到问题欢迎在评论区交流。

—END—