万字长文，彻底搞懂相似度计算！算法原理+实战代码，建议收藏！

最新推荐文章于 2025-12-13 19:26:52 发布

原创最新推荐文章于 2025-12-13 19:26:52 发布 · 532 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #prompt #人工智能 #学习 #钉钉 #运维

我相信，在初学机器学习过程中，相似度计算是不可避免需要去认真学习的一块内容。今天把最近同学们提到关于相似度计算几个方面的问题，进行一个详细的汇总。

在太多方面有着重要的作用了。尤其是在最近很多同学提到的推荐系统中。

那咱们来详细列举下相似度计算几个重要的方面~

自然语言处理：在NLP中，相似度计算和语义相似度可用于文本分类、信息检索、情感分析、语义匹配等任务。例如，在问答系统中，需要确定用户提出的问题与已知问题之间的相似度，以便提供最相关的答案。
信息检索：在搜索引擎中，相似度计算和语义相似度用于衡量查询与文档之间的相关性，从而提供最相关的搜索结果。
推荐系统：相似度计算和语义相似度可用于确定用户的兴趣和行为模式，以便向其推荐最相关的产品或内容。
机器翻译：需要理解源语言和目标语言之间的语义相似度，以确保翻译的准确性和流畅性。
文本生成：例如对话系统或摘要生成，需要确保生成的文本与原始文本在语义上相似，以保持信息的一致性和准确性。
语义搜索：相似度计算和语义相似度用于理解用户的查询意图，并将查询与语义上相关的内容进行匹配。
语义分析：在文本分析任务中，如语义角色标注、命名实体识别等，相似度计算和语义相似度可用于确定词语或短语之间的语义关联。

相似度计算和语义相似度在不同的应用领域都发挥着非常关键的作用，以帮助计算机理解和处理自然语言。

咱们答读者问，这个是第 12 期：突破最强算法 - 相似度计算！！

老规矩：大家伙如果觉得近期文章还不错！欢迎大家点个赞、转个发~

好了，继续大标题分类以及具体的Question，废话不多说，咱们一起来看看~

再有问题，随时私信哈！不限相似度计算！！

一、数据表示问题

读者问： 我在处理文本数据时，有点困惑如何选择合适的表示方法。有哪些常见的文本表示方法，比如词袋模型、TF-IDF、词嵌入，应该如何取选择？

大壮答： 你好，先来简单介绍一下这几种算法。选择合适的算法处理文本数据是非常非常重要的，因为它直接影响到相似度计算的准确性和效果。

常见的文本表示方法包括词袋模型、TF-IDF 和词嵌入。

下面我从原理、关键点、注意点几个方面，详细解释每种方法的特点，叙述一下如何选择合适的表示方法。

1. 词袋模型（Bag of Words，BoW）：

原理：词袋模型是将文本表示为一个由词汇构成的集合，忽略其语法和语序，只关注每个词汇在文本中的出现次数。
关键点：将文本转换为向量，向量的每个元素表示一个词汇在文本中的出现次数。因此，向量的维度与词汇表的大小相同。
注意点：词袋模型不考虑词汇之间的关系，因此可能丢失一些语义信息。

2. TF-IDF（Term Frequency-Inverse Document Frequency）：

原理：TF-IDF是一种衡量词汇在文本中重要性的方法，它考虑了词汇在文本中的频率以及在语料库中的普遍程度。
关键点：TF-IDF向量的每个元素是一个词汇的TF-IDF值，反映了它在文本中的重要性。
注意点：TF-IDF能够更好地区分出现频率高但普遍性也高的词汇，但仍然无法捕捉词汇之间的语义关系。

3. 词嵌入（Word Embeddings）：

原理：词嵌入是将词汇映射到一个低维连续向量空间中，使得词汇之间的语义关系能够在该空间中得到保留。
关键点：词嵌入通过训练一个神经网络模型（如Word2Vec、GloVe等）来学习词汇的分布式表示。
注意点：词嵌入能够更好地捕捉词汇之间的语义关系，但需要大量的文本数据进行训练，并且对于稀有词汇可能效果不佳。

选择合适的表示方法取决于具体的应用场景和需求：

如果只关注文本中词汇的出现频率而不考虑语义信息，可以选择词袋模型或TF-IDF。
如果需要考虑词汇之间的语义关系，并且有足够的文本数据进行训练，可以选择词嵌入。

这里，再用一个简单案例，结合sklearn来实现词袋模型和TF-IDF：

fromimport# 示例文本数据'This is the first document.''This document is the second document.''And this is the third one.''Is this the first document?'# 词袋模型"Bag of Words representation:"# TF-IDF"\nTF-IDF representation:"## Bag of Words representation:## [[0 1 1 1 0 0 1 0 1]## [0 2 0 1 0 1 1 0 1]## [1 0 0 1 1 0 1 1 1]## [0 1 1 1 0 0 1 0 1]]## TF-IDF representation:## [[0.         0.46979139 0.58028582 0.38408524 0.         0.## 0.38408524 0.         0.38408524]## [0.         0.6876236  0.         0.28108867 0.         0.53864762## 0.28108867 0.         0.28108867]## [0.51184851 0.         0.         0.26710379 0.51184851 0.## 0.26710379 0.51184851 0.26710379]## [0.         0.46979139 0.58028582 0.38408524 0.         0.## 0.38408524 0.         0.38408524]]

以上代码简单地演示了如何使用 sklearn 库中的CountVectorizer和TfidfVectorizer类来实现词袋模型和TF-IDF表示。

当然，在实际应用中，可以根据具体需求调整参数以及结合交叉验证等技术来选择最优的表示方法。

二、相似度度量的选择

读者问： 刚刚开始学相似度计算的内容，不同的相似度计算方法有点头疼。在文本数据中，余弦相似度、Jaccard相似度，应该怎么选择合适的方法呢？

大壮答： 是的，尤其是刚刚开始学。相似度计算方法的选择确实是一个关键问题。在处理文本数据时，我们通常需要考虑到文本的语义信息以及其在向量空间中的表示。余弦相似度和Jaccard相似度是两种常用的相似度计算方法，它们各有优劣，选择适合的方法需要考虑到数据的特点以及任务的要求。

1. 余弦相似度（Cosine Similarity）：这个好理解，毕竟接触太早了。余弦相似度用于衡量两个向量之间的夹角余弦值，通常用于比较文本之间的相似度。

余弦相似度计算公式：

其中，和分别表示两个文本的向量表示，表示向量的点积，表示向量的范数。

2. Jaccard相似度（Jaccard Similarity）：用于衡量两个集合的相似度，通常用于比较文本之间的相似度。

Jaccard相似度计算公式：

其中，表示集合的大小，和分别表示两个文本的词集合。

接下来，咱们说说如何选择合适的方法：

数据特点：如果文本数据较长，且其中包含了丰富的语义信息，那么余弦相似度通常更适合，因为它能够更好地捕捉到文本之间的语义相似度。而如果文本数据较短，且重点在于词汇的重合程度，那么Jaccard相似度可能更为合适。
任务要求：在实际任务中，需要根据具体的任务需求来选择相似度计算方法。如果任务是文本分类或者信息检索，通常会选择余弦相似度作为相似度计算方法。而如果任务是文本 deduplication 或者查找重复内容，可能更倾向于使用 Jaccard 相似度。
实验效果：在实验中，可以尝试使用不同的相似度计算方法，并通过评估指标（如准确率、召回率等）来比较它们的效果。根据实验结果来选择最适合的方法。

咱们通过一个小案例，计算两个文本之间的余弦相似度和 Jaccard 相似度：

fromimportfromimportimportas# 两个文本数据"This is a sample text for computing similarity.""This is another text for computing similarity."# 将文本数据转换成向量表示# 计算余弦相似度00# 计算 Jaccard 相似度"Cosine Similarity:""Jaccard Similarity:"

通过这个示例代码，你可以计算出两个文本之间的余弦相似度和 Jaccard 相似度，结合开头讲到的原理，可以根据你具体的需要，选择合适的相似度计算方法。

三、超参数调优的方法

读者问： 壮哥，对于一些相似度计算方法，我看到了一些超参数，比如窗口大小、权重等。应该怎么调整这些参数以获得更好的性能？方便大概捋一下吗？

大壮答： 你好，相似度计算是一个在自然语言处理、图像处理等领域非常重要的任务，而超参数的选择对于性能优化至关重要。

让我们以文本相似度计算为例，来详细讨论一下如何调整超参数以获得更好的性能。

超参数解释

窗口大小：

含义： 在文本相似度计算中，窗口大小通常指的是在比较文本时考虑的上下文单词的数量。
调整方法： 增大窗口可以捕捉更广泛的语境信息，但也可能引入噪声。根据任务，可以尝试不同的窗口大小，观察性能变化。

权重：

含义： 在一些相似度计算方法中，权重用于赋予不同单词或特征不同的重要性。
调整方法： 可以根据任务的需求来调整权重。一些方法可能自动学习权重，而另一些可能需要手动调整。尝试不同的权重组合以找到最佳性能。

超参数调整方法

网格搜索：

方法： 针对每个超参数，定义一组可能的取值范围，通过组合不同取值进行训练和评估。选择在验证集上性能最好的超参数组合。
代码示例：

fromimport'window_size'357'weight'0.51.01.55

随机搜索：

方法： 类似网格搜索，但随机选择超参数的组合，可以更高效地搜索超参数空间。
代码示例：

fromimport'window_size'357'weight'0.51.01.5105

关键注意点

这几点，需要重要注意一下~

交叉验证： 始终在训练集上使用交叉验证，以确保超参数的性能评估更加鲁棒。
任务特定： 超参数的最佳选择可能因任务而异，因此了解任务的特点对于调整超参数至关重要。
性能指标： 考虑使用适当的性能指标，如准确性、F1分数等，以评估超参数的效果。

以上方法和原则也适用于其他相似度计算任务。通过调整这些超参数，可以更好地适应不同的数据集和任务要求，提高相似度计算模型的性能。

四、语义相似度中的词嵌入

读者问： 词嵌入在语义相似度任务中很重要。有哪些常见的词嵌入模型，比如Word2Vec、GloVe、FastText，应该如何选择和使用呢？

大壮答： 词嵌入模型在语义相似度任务中确实非常关键。常见的词嵌入模型包括Word2Vec、GloVe和FastText，它们都有各自的优势和适用场景。

依然从原理、优势、和一个简短示例展开说说~

1. Word2Vec:

原理：Word2Vec基于分布式假设，即相似的单词在上下文中出现的概率也相似。它包括两种模型，CBOW（Continuous Bag of Words）和Skip-gram，通过神经网络训练来学习单词的分布式表示。
优势: 训练速度较快，适用于大规模语料库。
代码示例:

fromimport"this""is""a""sentence""another""sentence"1

2. GloVe:

原理：GloVe（Global Vectors for Word Representation）结合了全局统计信息和局部上下文信息来学习词嵌入。它通过最小化两个单词共现的对数差异来学习单词之间的关系。
优势: 融合了全局和局部信息，对于小型语料库效果较好。
代码示例: GloVe需要先下载预训练的词向量模型，然后加载使用。

3. FastText:

原理: FastText是基于子词的模型，它将每个单词表示为其字符n-gram的平均值的向量。这种方法在处理稀有单词和词形变化时效果较好。
优势: 对于包含大量未登录词（Out-of-Vocabulary）的语料库效果较好。
代码示例:

fromimport"this""is""a""sentence""another""sentence"1

如何选择和使用

数据规模: 如果你有大规模的语料库，可以考虑使用Word2Vec或GloVe。
稀有词处理: 如果你的语料库包含许多未登录词，FastText可能更适合。
任务需求: 对于特定的任务需求，可以尝试不同的模型并根据性能进行选择。
预训练模型: 如果你有足够大的数据集，也可以考虑使用预训练的模型，例如在大型语料库上训练好的Word2Vec或GloVe模型。

最终选择哪种模型取决于你的具体需求和数据情况。建议先尝试不同的模型并进行实验评估，以确定最适合你任务的词嵌入模型。

五、处理多模态数据

读者问： 如果我的任务涉及多种类型的数据，比如文本、图像、语音，我应该如何整合这些数据进行相似度计算或语义理解？

大壮答： 你好，当任务涉及多种类型的数据，如文本、图像和语音，进行相似度计算或语义理解时，可以采取多种方法来整合这些数据。

内容比较多，咱们列举一下~

1. 特征提取与融合：

对于每种数据类型，首先需要进行特征提取。例如，对于文本数据，可以使用词袋模型、TF-IDF、Word2Vec等方法提取特征；对于图像数据，可以使用卷积神经网络提取特征；对于语音数据，可以使用Mel频谱特征等。

然后，将不同数据类型的特征融合在一起。可以采用简单的拼接、加权求和等方式融合特征。

2. 跨模态学习：

跨模态学习是一种将不同模态的数据进行联合建模的方法。它可以通过共享部分模型参数来学习不同模态之间的关联。

例如，可以使用多模态循环神经网络（MM-RNN）或多模态注意力模型来实现跨模态学习。

3. 基于图的方法：

可以将不同类型的数据构建成一个图，其中节点表示数据样本，边表示数据之间的关系。

然后，可以使用图神经网络（GNN）等方法来学习数据之间的相似度或语义关系。

4. 多模态匹配：

可以将不同模态的数据映射到一个共同的向量空间，然后计算向量之间的相似度。

例如，可以使用多模态匹配网络或三元组网络来进行多模态匹配。

5. 集成学习：

将不同数据类型的相似度计算结果进行集成，可以使用投票法、加权平均等方式。

也可以使用集成学习算法（如随机森林、XGBoost等）来整合不同模型的预测结果。

但是在实现上述的几种方法的同时，需要注意几点：

数据预处理：对不同类型的数据进行适当的预处理是十分重要的，例如文本数据的分词、图像数据的归一化处理、语音数据的降噪等。
模型选择：根据任务需求和数据特点选择合适的模型进行相似度计算或语义理解。
模型评估：需要使用适当的评估指标来评估模型的性能，例如准确率、召回率、F1-score等。
调参优化：对于深度学习模型，需要进行合适的超参数调优，以获得更好的性能。
数据集平衡：确保不同类型数据的样本数目相对平衡，以避免模型在某一类型数据上过度拟合。

下面咱们使用多模态匹配网络来进行文本-图像匹配的任务：

importimportasclass MultiModalMatchingNetwork(nn.Module):def __init__(self, text_dim, image_dim, hidden_dim):21def forward(self, text_features, image_features):1return# 示例用法1300# 假设文本特征维度为3001512# 假设图像特征维度为512300512256"Matching Score:"# Matching Score: 0.42491665482521057

代码中，使用随机生成的文本特征和图像特征进行匹配得分的计算。这块内容后面有空可以展开详细的说说。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述