【可能是全网最丝滑的LangChain教程】十五、LangChain进阶之Embedding Models

你不能总是得到你想要的,但如果你有时尝试,你会得到你需要的。

01 Embedding 介绍

在自然语言处理(NLP)中,Embedding 是一种将文本数据从高维稀疏向量空间转换到低维密集向量空间的技术。这种转换使得模型能够学习到词汇之间的语义和语法关系,并以连续的数值向量形式表示单词、句子或文档,从而便于机器学习算法处理。

从离散到连续的转换

在处理文本数据时,我们通常面对的是离散的符号(如单词)。Embedding 允许我们将这些离散的符号转换成连续的向量空间中的点,使得__相似意义的词在向量空间中距离较近,而不同意义的词距离较远。这种转换对于大多数机器学习算法至关重要,因为它们通常要求输入是数值型的。

词嵌入(Word Embedding)

词嵌入是将每个单词映射到一个固定长度的实数向量上,这个向量能够捕捉单词的语义信息。例如,"猫"和"狗"这两个词在嵌入空间中的向量会比较接近,因为它们在语义上有相似性。

一些著名的预训练词嵌入模型包括Word2Vec、GloVe和FastText。这些模型通过分析大量文本数据学习得到单词的嵌入向量。

上下文敏感的嵌入(Contextual Embeddings)

随着Transformer架构的引入,如BERT、RoBERTa、ELECTRA等模型,词嵌入进入了上下文敏感的阶段。这些模型为文本中的每个单词生成嵌入时会考虑其上下文环境,因此,同一个单词在不同语境下的嵌入向量可以不同,这大大提高了模型理解复杂语言结构的能力。

应用场景

Embedding广泛应用于各种NLP任务,包括但不限于:文本分类、语义相似度计算、机器翻译、对话系统、情感分析

02 Embedding 工作原理

在深度学习框架中(如Keras、TensorFlow),Embedding层是一个常用的组件:

  • 输入:接受一个整数序列,每个整数代表词汇表中的一个单词索引。
  • 输出:为输入序列中的每个单词生成一个固定维度的向量。
  • 参数:主要参数包括input_dim(词汇表大小)、output_dim(嵌入向量的维度)以及初始化方式等。

03 LangChain 中的 Embedding

LangChain 的 Embeddings 类提供了一个标准化的接口,用于与不同的文本嵌入模型提供商(如 OpenAI 和 Cohere)进行交互。

文本嵌入模型通过将文本转换为向量形式,使得可以在向量空间中进行语义搜索和相似性比较

Embeddings 类包含两种方法:

  • embed_documents 用于嵌入多个文本,适用于被搜索的文档集合
  • embed_query 用于嵌入单个查询文本,适用于执行搜索的查询。

Embedding 种类(数量)

class Embeddings
  class FakeEmbeddings
  class DeterministicFakeEmbedding
  class OpenAIEmbeddings
    class AzureOpenAIEmbeddings
  class HuggingFaceEmbeddings
  class HuggingFaceInstructEmbeddings
  class HuggingFaceBgeEmbeddings
  class HuggingFaceInferenceAPIEmbeddings
  class AlephAlphaAsymmetricSemanticEmbedding
    class AlephAlphaSymmetricSemanticEmbedding
  class OpenAIEmbeddings
    class AnyscaleEmbeddings
    class AzureOpenAIEmbeddings
  class AwaEmbeddings
  class BaichuanTextEmbeddings
  class BedrockEmbeddings
  class BookendEmbeddings
  class ClarifaiEmbeddings
  class CohereEmbeddings
  class DashScopeEmbeddings
  class MlflowEmbedding
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值