【AI 大模型】RAG 检索增强生成 ⑧ ( 文本相似度排序 | Bi-Encoder 双编码器 | Cross-Encoder 交叉编码器 )

最新推荐文章于 2025-03-27 18:49:26 发布

韩曙亮

最新推荐文章于 2025-03-27 18:49:26 发布

阅读量1.1w

点赞数 32

分类专栏：人工智能文章标签：人工智能 AI大模型 Bi-Encoder Cross-Encoder 文本相似度排序双编码器交叉编码器

本文链接：https://blog.youkuaiyun.com/shulianghan/article/details/146122236

版权

人工智能专栏收录该内容

32 篇文章

订阅专栏

文章目录

一、文本相似度排序
二、Bi-Encoder 双编码器用法实例
- 1、Bi-Encoder 双编码器实现
- 2、Bi-Encoder 双编码器代码示例
三、Cross-Encoder 交叉编码器用法实例

在这里插入图片描述

一、文本相似度排序

1、向量数据库查询弊端

在之前的【AI 大模型】RAG 检索增强生成系列博客中 ,

使用了 chromadb 向量数据库 , 给定一个查询语句 , 将其转为文本向量 , 从向量数据库中查询若干个相似的文本 ;

向量数据库通过 ANN 近似最近邻搜索可以快速返回与查询文本相似的前 n 个结果 , 但是该向量检索方式有一定的局限性 , 如 :

向量模型的质量差 : 使用的文本向量模型质量差 , 相应的计算出的文本相似度质量差 ;
- " sentence-transformers/all-MiniLM-L6-v2 " 模型支持中文 , 但是对中文的优化程度较低 , 计算中文的相似度效果就很差 ;
- " BAAI/bge-large-zh-v1.5 " 模型是专门为中文优化的文本向量模型 , 中文语义理解能力强 , 支持成语、古汉语等复杂表达 , 计算中文语句的相似度就很准确 ;
相似度计算简化 : 选择的相似度计算方式可能无法准确反映语义相关度 , 如 : 单独选择余弦相似度或欧氏距离等方式计算相似度 , 忽略了文本间的上下文依赖、指代消解等动态交互信息 ;
- 有的文本向量模型使用余弦相似度计算出来的相似度很准确 , 但是有的使用欧式距离计算出来的相似度更准确 ;
数据分布干扰 : 数据分布的问题导致近邻不一定最相关 , 高维空间中距离相近的向量可能在语义上并不相关 ;

2、二次排序的必要性

直接用向量数据库的查询结果的排序可能不够准确反应向量相似度 , 必须要进行二次排序 ;

通过二次排序 ( Re-Ranking ) 可以对 Top-n 结果进行精细化评分 ;

二次排序的目标 : 使用更高精度的向量相似度计算模型对候选集进行重排 , 提升最终排序结果的准确率 ;

二次排序可以解决如下问题 :

粗粒度过滤 : 向量数据库侧重快速查询 , 但是查询出的 Top-n 候选集中仍包含好很多噪声 ;
语义深度匹配 : 向量数据库查询出的候选集语意匹配都很浅 , 二次排序可以捕捉句式差异、否定词、多义词等细粒度特征 ;
任务适配性 : 二次排序可以针对垂直领域优化相关性判断逻辑 , 如 : 法律领域 , 医学领域 , 农业领域等 ;

2、相似度排序模型 - Bi-Encoder 双编码器、Cross-Encoder 交叉编码器引入

进行文本向量集的二次排序的相似度排序模型主要有如下两种 :

Bi-Encoder 双编码器
Cross-Encoder 交叉编码器

二者都可以用于句子或文本的语义相似性的计算 , 都属于自然语言处理 ( NLP ) 领域 ;

3、Bi-Encoder 双编码器

Bi-Encoder 双编码器需要先计算两个句子的文本向量 , 然后计算两个文本向量的相似度 ;

该方法执行效率较高 , 适合大规模候选对的对比 , 如 : 文本检索 , 只是问答 , 论文查重 , 文本聚类等场景 ;
Bi-Encoder 双编码器适合处理大量数据的场景 , 如 : 百万级别的文本检索 ;
该模型的计算精度较低 , 文本相似度排序准确率要低于 Cross-Encoder 交叉编码器 ;

在这里插入图片描述

4、Cross-Encoder 交叉编码器

Cross-Encoder 交叉编码器将查询文本与候选文本拼接后 , 再输入到单一 Transformer 模型中 , 直接输出相关性分数 ;

通过自注意力机制 , 动态捕捉词级、句级关联 , 直接输出查询文本与候选文本的相关性的概率值 ;
在复杂语义的场景 , Cross-Encoder 交叉编码器的相似度计算精度高于 Bi-Encoder 双编码器 ;
Cross-Encoder 交叉编码器适用于少量候选句子的场景 , 如 100 个以内的文本相似度排序 ;
Cross-Encoder 交叉编码器属于 sentence-transformers 库的一部分 , 由Hugging Face维护 ;

在这里插入图片描述

5、Bi-Encoder 双编码器与 Cross-Encoder 交叉编码器结合使用

工业级相似度排序系统采用两阶段流水线 ,

首先执行召回阶段任务 , 该阶段要求快速执行 ;
然后执行精排阶段任务 , 该阶段要求精确度高 ;

Bi-Encoder 双编码器适合用于大规模向量本文相似度计算 , Cross-Encoder 交叉编码器适用于小规模文本相似度计算 , 后者计算更耗时更准确 ;

实际的相似度排序系统设计常采用混合架构 , 先用 Bi-Encoder 快速筛选候选集 , 再用 Cross-Encoder 对 TopN 结果进行精确重排序 , 兼顾效率与精度需求 :

召回阶段 : 使用 Bi-Encoder 双编码器进行大规模计算 , 找出 TOP-N 候选集 ;
精排阶段 : 使用 Cross-Encoder 交叉编码器进行准确的相似度计算 ;

6、Bi-Encoder 双编码器与 Cross-Encoder 交叉编码器对比

在这里插入图片描述

对比维度	Bi-Encoder（双编码器）	Cross-Encoder（交叉编码器）
计算效率	✅ 高（预计算文本向量，检索时仅需向量相似度计算）	❌ 低（需实时拼接文本对并完整推理，无法预计算）
交互建模能力	❌ 弱（独立编码，仅通过向量相似度间接建模交互）	✅ 强（通过注意力机制直接建模词级交互，捕捉细粒度语义）
适用阶段	召回阶段（从海量候选集中快速筛选 Top K）	精排阶段（对少量候选进行精准排序或分类）
典型任务	语义检索、问答召回、大规模去重	文本相似度判断、自然语言推理（NLI）、重排序
优点	- 响应速度快 - 内存占用低 - 支持预计算和实时检索	- 精度高 - 建模复杂语义关系能力强 - 适合小规模精细化分析
缺点	- 无法捕捉细粒度交互 - 对负样本敏感 - 精度受向量表示限制	- 计算成本高（复杂度 $O(n^2)$ ） - 无法处理大规模数据 - 实时性差
结构特点	- 双塔结构，独立编码查询和文档 - 输出向量后计算相似度（如余弦相似度）	- 单编码器，输入为拼接的文本对 - 直接输出匹配分数或分类结果
响应速度	⚡ 极快（依赖预计算，检索仅需毫秒级）	🐢 慢（需实时计算每个文本对，百毫秒至秒级）
计算精度	📉 中低（受限于向量表示的泛化能力）	📈 高（通过交叉注意力捕捉细粒度语义差异）

二、Bi-Encoder 双编码器用法实例

1、Bi-Encoder 双编码器实现

Bi-Encoder 双编码器是一种用于处理文本对任务的架构设计模式 , 其核心思想是 :

使用两个独立编码器（通常共享参数）分别处理输入文本 ;
通过向量相似度（如余弦相似度）衡量语义关联 ;

在这里插入图片描述

Bi-Encoder 双编码器是架构设计而非具体模型 , 该架构已被具体化为多种现成模型 :

Sentence Transformers 模型 , 其中提供了很多预训练模型 ;
- 之前使用过的 BAAI/bge-large-zh-v1.5 模型就是 Bi-Encoder 双编码器实现的一部分 ;
OpenAI 的文本嵌入模型 ;

2、Bi-Encoder 双编码器代码示例

一个普通的将文本转为向量并进行文本相似度计算的代码 , 就是使用了 Bi-Encoder 双编码器架构设计思想的代码示例 , 这种代码在之前的一系列博客中 , 使用了很多次 ;

如 : 在【AI 大模型】RAG 检索增强生成 ⑦ ( 本地部署向量模型 | Sentence Transformers 工具库 | 从 Hugging Face 模型库中查找模型 | BGE 模型 ) 四、使用 BAAI/bge-large-zh-v1.5 模型进行向量转化 1、向量转化示例博客章节中的代码示例 , 就是一个 Bi-Encoder 双编码器代码示例 ;

在上述代码中 , 使用预训练的 Sentence Transformer 模型 " BAAI/bge-large-zh-v1.5 模型 " 作为文本向量模型 , 将文本通过该模型转为向量特征表示 ,

将下面的 5 个句子 , 计算成了文本向量 ;

# 需要编码的句子列表
sentences = [
    "李彦宏称大模型成本每年降低90%",  # 科技类新闻
    "乌军大批直升机击落多架俄无人机",  # 国际争端类新闻
    "王力宏回应是否想找新伴侣",      # 娱乐新闻
    "饺子不知道观众怎么想出的藕饼cp",  # 影视相关话题
    "加沙停火协议关键时刻生变"       # 国际争端类新闻
]

每个文本向量的维度是 1024 维 , 也就是每个句子由 1024 个浮点数表示 ;

使用 5x1024 维的向量同时作为查询文本和候选文本 , 进行文本相似度对比 , 最终得到一个相似度矩阵 :

计算嵌入向量之间的相似性:
tensor([[1.0000, 0.2748, 0.3885, 0.1245, 0.1896],
        [0.2748, 1.0000, 0.1758, 0.1199, 0.4046],
        [0.3885, 0.1758, 1.0000, 0.3367, 0.2884],
        [0.1245, 0.1199, 0.3367, 1.0000, 0.2355],
        [0.1896, 0.4046, 0.2884, 0.2355, 1.0000]])

上述矩阵中 , 对角线上的是本身与本身向量相似度的计算 , 肯定是最高值 1 ;

第二个文本 “乌军大批直升机击落多架俄无人机” 是国际争端类新闻 , 第五个文本 “加沙停火协议关键时刻生变” 也是国际争端类新闻 ;

相应的第二行第五列和第五行第二列就是两个句子的向量相似度计算 , 结果是 0.4046 , 这个相似度是除了与本身对比之外 , 是最高的相似度 ;

三、Cross-Encoder 交叉编码器用法实例

1、Cross-Encoder 交叉编码器实现原理

Cross Encoder 实现原理可参考 https://www.sbert.net/examples/applications/cross-encoder/README.html 文档 ;

Cross-Encoder 交叉编码器是一种通过联合建模输入对交互关系的深度学习模型 , 广泛应用于文本匹配、排序和问答等任务 ;

Cross-Encoder 直接对输入对进行深度融合编码 , 而非独立编码 , 模型会将两个句子拼接后输入Transformer , 利用自注意力机制捕捉细粒度交互关系 ;

输入拼接 : 将两个文本拼接为统一序列 , 并添加特殊标记 [CLS] 和 [SEP] ;

[CLS] 文本A [SEP] 文本B [SEP]

[CLS] 用于聚合整体信息的标记 ;
[SEP] 分隔符用于区分两个输入 ;

举例说明 : 比较 " 国际争端新闻 " 和 " 乌军大批直升机击落多架俄无人机 " 两个句子 , 需要进行文本拼接 , 拼接后的文本为

[CLS] 国际争端新闻 [SEP] 乌军大批直升机击落多架俄无人机 [SEP]

将上述文本输入到 Cross-Encoder 交叉编码器中 ,

先进行 Transformer 编码 , 通过多层 Transformer 编码器处理拼接后的文本序列 ;

通过自注意力机制计算文本A 和文本B 中所有词之间的交互权重 ;
特征融合 : 模型在每一层同时更新两个文本的表示 , 直接捕捉交叉语义 ;

然后输出分类 / 回归结果 , 取 [CLS] 标记的向量作为整体表示 , 输入分类器预测相关性分数 ,

对于二分类任务（如相关/不相关） , 使用Sigmoid输出概率 ;
对于排序任务，直接输出回归分数 ;

2、安装包含 Cross-Encoder 交叉编码器的工具库 Sentence Transformers

Cross Encoder 是 Sentence Transformers 库的组件之一 , 执行

pip install sentence-transformers

命令 , 安装 Sentence Transformers 库 , 参考 https://sbert.net/docs/installation.html 文档进行安装 ;

参考【AI 大模型】RAG 检索增强生成 ⑦ ( 本地部署向量模型 | Sentence Transformers 工具库 | 从 Hugging Face 模型库中查找模型 | BGE 模型 ) 二、本地部署向量模型 1、安装 Sentence Transformers 博客安装 Sentence Transformers 库 ;

Python 版本需要 3.9 以上 , 不达到该版本安装会报错 ;

安装 Sentence Transformers 工具库依赖的 PyTorch 版本需要 1.11.0 以上 , 执行下面的命令 , 可以指定安装的 PyTorch 版本 ;

# 根据系统选择对应命令（示例为CPU版本）
pip install torch==2.0.1

执行下面的命令 , 可指定安装的 Sentence Transformers 工具库版本 ;

pip install sentence-transformers==2.2.2  # 指定版本

3、pip install 国内镜像源设置

如果安装过程中 , 安装速度太慢 , 或者下载失败 , 可使用 -i 参数设置国内镜像源 ;

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple sentence-transformers

可设置的国内镜像源如下 :

清华大学镜像源 : https://pypi.tuna.tsinghua.edu.cn/simple
阿里云镜像源 : https://mirrors.aliyun.com/pypi/simple/
腾讯云镜像源 : https://mirrors.cloud.tencent.com/pypi/simple
网易镜像源 : https://mirrors.163.com/pypi/simple/
中国科学技术大学镜像源 : https://pypi.mirrors.ustc.edu.cn/simple/

4、Cross-Encoder 交叉编码器代码示例 - 英文相似度排序

下面的代码是参考 https://sbert.net/docs/quickstart.html 文档中的代码修改而来的 ;

Hugging Face 模型库无法访问 , 这里需要设置国内镜像源 :

import os
# 设置Hugging Face模型的下载镜像地址，核心配置用于加速模型下载
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"

在本地部署 CrossEncoder 模型代码如下 , 执行该代码会自动从 Hugging Face 模型库中下载 “cross-encoder/stsb-distilroberta-base” 模型到本地 ;

from sentence_transformers.cross_encoder import CrossEncoder

model = CrossEncoder("cross-encoder/stsb-distilroberta-base")

执行如下代码 , query 是一个文本 , corpus 是文本列表 , 将 query 与每个 corpus 句子拼接成[SEP] 分隔的输入对 , 通过模型计算每个对的相似度 logits , 使用 sigmoid 将 logits 转换为 0-1 的相似度分数 , 按照相似度分数进行降序排列 ;

ranks = model.rank(query, corpus)

完整代码示例 :

import os
# 设置Hugging Face模型的下载镜像地址，核心配置用于加速模型下载
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"  

# 导入跨编码器模型（用于计算句子相似度的深度学习方法）
from sentence_transformers.cross_encoder import CrossEncoder

# 算法原理：
# CrossEncoder采用单塔架构，同时处理两个输入句子，通过交叉注意力机制进行深度交互
# 与Bi-Encoder双塔架构不同，CrossEncoder的计算公式为：score = sigmoid(W·Transformer([SEP]拼接输入))
# 其中[SEP]表示句子分隔符，W为分类层权重矩阵

# 1. 加载预训练的跨编码器模型（STS-B语义文本相似度任务专用）
# 模型名称："cross-encoder/stsb-distilroberta-base"
# - distilroberta-base: 蒸馏压缩版的RoBERTa模型
# - STS-B: Semantic Textual Similarity Benchmark（语义相似度评估基准）
model = CrossEncoder("cross-encoder/stsb-distilroberta-base")

# 定义查询语句（需要计算相似度的目标句子）
query = "International conflict news" # 国际争端新闻

# 定义语料库（包含多个待比较的句子）
corpus = [
    "Li Yanhong says the cost of large models is reduced by 90% annually",  # 科技类新闻, 李彦宏称大模型成本每年降低90%
    "Ukrainian military shoots down multiple Russian drones with a flock of helicopters",  # 国际争端类新闻, 乌军大批直升机击落多架俄无人机
    "Wang Leehom responds to whether he wants to find a new partner",  # 娱乐新闻, 王力宏回应是否想找新伴侣
    "Jiaozi (director) doesn't know how audiences came up with the 'Oubing' CP",  # 影视相关话题, 饺子不知道观众怎么想出的藕饼cp
    "Gaza ceasefire agreement faces changes at a critical moment"  # 国际争端类新闻, 加沙停火协议关键时刻生变
]

# 2. 对语料库中的所有句子进行相似度排序
# rank()方法内部实现：
# 1. 将query与每个corpus句子拼接成[SEP]分隔的输入对
# 2. 通过模型计算每个对的相似度logits
# 3. 使用sigmoid将logits转换为0-1的相似度分数
# 4. 按分数降序排列，返回包含corpus_id和score的字典列表
ranks = model.rank(query, corpus)

# 打印排序结果（按相似度从高到低排列）
print("Query: ", query)
for rank in ranks:
    # 格式化输出：分数保留两位小数，对应语料库中的句子
    print(f"{rank['score']:.2f}\t{corpus[rank['corpus_id']]}")

# 3. 手动计算相似度分数的替代方法（展示底层实现细节）
import numpy as np

# 创建所有句子组合：[query, corpus_sentence]的二维列表
# 示例结构：[[query, corpus[0]], [query, corpus[1]], ...]
sentence_combinations = [[query, sentence] for sentence in corpus]

# 使用模型预测所有组合对的相似度分数
# predict()方法：
# 输入：二维列表，每个元素是文本对
# 输出：一维numpy数组，包含每个对的相似度分数
scores = model.predict(sentence_combinations)

# 对分数进行降序排序并获取对应的索引
# np.argsort(scores)返回升序排列的索引
# [::-1]进行倒序操作实现降序排列
ranked_indices = np.argsort(scores)[::-1]

# 打印原始分数和排序后的索引
print("Scores:", scores)
print("Indices:", ranked_indices)

"""
代码执行流程总结：
1. 模型初始化 -> 2. 构建输入数据 -> 3. 计算相似度 ->
4. 结果排序 -> 5. 输出可视化

性能说明：
- CrossEncoder计算复杂度为O(n)，适用于中小规模语料库
- 对比Bi-Encoder的O(1)复杂度，CrossEncoder精度更高但计算量更大
- 推荐使用场景：1000句以内的精细相似度排序
"""

执行结果如下 :

Query:  International conflict news
0.12	Ukrainian military shoots down multiple Russian drones with a flock of helicopters
0.11	Gaza ceasefire agreement faces changes at a critical moment
0.01	Li Yanhong says the cost of large models is reduced by 90% annually
0.01	Wang Leehom responds to whether he wants to find a new partner
0.01	Jiaozi (director) doesn't know how audiences came up with the 'Oubing' CP
Scores: [0.00677924 0.11857065 0.0065942  0.0057603  0.10577792]
Indices: [1 4 0 2 3]

在这里插入图片描述

5、Cross-Encoder 交叉编码器模型下载查看

在下面的代码中 , 执行时会自动下载 “cross-encoder/stsb-distilroberta-base” 模型 ;

from sentence_transformers.cross_encoder import CrossEncoder

model = CrossEncoder("cross-encoder/stsb-distilroberta-base")

下载地址为 https://huggingface.co/cross-encoder/stsb-distilroberta-base , 查看模型的介绍如下 :

在这里插入图片描述

选择 " Files and version " 选项卡 , 可以查看文件内容 ;

在这里插入图片描述

WIndows 本地下载的模型在 C:\Users\octop.cache\huggingface\hub\models–cross-encoder–stsb-distilroberta-base 目录中 , 模型的具体文件目录为 C:\Users\octop.cache\huggingface\hub\models–cross-encoder–stsb-distilroberta-base\snapshots\9a05a97ddb424fc9aea3d768d0e2dab0a1276421 ;

在这里插入图片描述

6、Cross-Encoder 交叉编码器使用 cross-encoder/stsb-distilroberta-base 模型进行中文相似度排序

使用 CrossEncoder 交叉编码器加载 “cross-encoder/stsb-distilroberta-base” 模型 , 仅能对英文进行排序 , 如果对中文排序 , 得到的结果稀烂 ;

对下面的中文文本进行排序 , 将下面的中文拷贝到上述代码中 , 其它代码不变 ;

# 定义查询语句（需要计算相似度的目标句子）
query = "国际争端新闻"

# 定义语料库（包含多个待比较的句子）
corpus = [
    "李彦宏称大模型成本每年降低90%",  # 科技类新闻
    "乌军大批直升机击落多架俄无人机",  # 国际争端类新闻
    "王力宏回应是否想找新伴侣",      # 娱乐新闻
    "饺子不知道观众怎么想出的藕饼cp",  # 影视相关话题
    "加沙停火协议关键时刻生变"       # 国际争端类新闻
]

由于是错误代码 , 就不再贴出完整代码了 , cross-encoder/stsb-distilroberta-base 模型不适合进行中文相似度排序 ;

执行结果 : 排序结果很差 , 与 " 国际争端新闻 " 相似度最高的文本居然是 " 王力宏回应是否想找新伴侣 " , 显然该模型根本不支持中文文本排序 ;

Query:  国际争端新闻
0.38	王力宏回应是否想找新伴侣
0.25	加沙停火协议关键时刻生变
0.24	李彦宏称大模型成本每年降低90%
0.19	乌军大批直升机击落多架俄无人机
0.17	饺子不知道观众怎么想出的藕饼cp
Scores: [0.2380584  0.19352856 0.37611857 0.17274071 0.25236368]
Indices: [2 4 0 1 3]

在这里插入图片描述

7、Cross-Encoder 交叉编码器中文相似度排序模型推荐 - hfl/chinese-roberta-wwm-ext 模型

这里推荐一个支持中文的相似度排序模型 " hfl/chinese-roberta-wwm-ext " 模型地址 https://huggingface.co/hfl/chinese-roberta-wwm-ext ;

这是哈工大讯飞联合实验室（HFL）训练的模型 ;

该模型是基于原始 BERT-wwm 架构的微调版本 , 在 LCQMC 等中文语义匹配数据集上验证有效 ;

代码示例 :

import os
# 设置Hugging Face模型的下载镜像地址，核心配置用于加速模型下载
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"

# 导入跨编码器模型（用于计算句子相似度的深度学习方法）
from sentence_transformers.cross_encoder import CrossEncoder

# 算法原理：
# CrossEncoder采用单塔架构，同时处理两个输入句子，通过交叉注意力机制进行深度交互
# 与Bi-Encoder双塔架构不同，CrossEncoder的计算公式为：score = sigmoid(W·Transformer([SEP]拼接输入))
# 其中[SEP]表示句子分隔符，W为分类层权重矩阵

# 1. 加载预训练的跨编码器模型（STS-B语义文本相似度任务专用）
# 模型名称："hfl/chinese-bert-wwm-ext"
model = CrossEncoder('hfl/chinese-bert-wwm-ext', num_labels=1)

# 定义查询语句（需要计算相似度的目标句子）
query = "国际争端新闻"

# 定义语料库（包含多个待比较的句子）
corpus = [
    "李彦宏称大模型成本每年降低90%",  # 科技类新闻
    "乌军大批直升机击落多架俄无人机",  # 国际争端类新闻
    "王力宏回应是否想找新伴侣",      # 娱乐新闻
    "饺子不知道观众怎么想出的藕饼cp",  # 影视相关话题
    "加沙停火协议关键时刻生变"       # 国际争端类新闻
]

# 2. 对语料库中的所有句子进行相似度排序
# rank()方法内部实现：
# 1. 将query与每个corpus句子拼接成[SEP]分隔的输入对
# 2. 通过模型计算每个对的相似度logits
# 3. 使用sigmoid将logits转换为0-1的相似度分数
# 4. 按分数降序排列，返回包含corpus_id和score的字典列表
ranks = model.rank(query, corpus)

# 打印排序结果（按相似度从高到低排列）
print("Query: ", query)
for rank in ranks:
    # 格式化输出：分数保留两位小数，对应语料库中的句子
    print(f"{rank['score']:.2f}\t{corpus[rank['corpus_id']]}")

# 3. 手动计算相似度分数的替代方法（展示底层实现细节）
import numpy as np

# 创建所有句子组合：[query, corpus_sentence]的二维列表
# 示例结构：[[query, corpus[0]], [query, corpus[1]], ...]
sentence_combinations = [[query, sentence] for sentence in corpus]

# 使用模型预测所有组合对的相似度分数
# predict()方法：
# 输入：二维列表，每个元素是文本对
# 输出：一维numpy数组，包含每个对的相似度分数
scores = model.predict(sentence_combinations)

# 对分数进行降序排序并获取对应的索引
# np.argsort(scores)返回升序排列的索引
# [::-1]进行倒序操作实现降序排列
ranked_indices = np.argsort(scores)[::-1]

# 打印原始分数和排序后的索引
print("Scores:", scores)
print("Indices:", ranked_indices)

"""
代码执行流程总结：
1. 模型初始化 -> 2. 构建输入数据 -> 3. 计算相似度 ->
4. 结果排序 -> 5. 输出可视化

性能说明：
- CrossEncoder计算复杂度为O(n)，适用于中小规模语料库
- 对比Bi-Encoder的O(1)复杂度，CrossEncoder精度更高但计算量更大
- 推荐使用场景：1000句以内的精细相似度排序
"""

执行结果 : 使用 " hfl/chinese-roberta-wwm-ext " 模型对中文进行语义排序准确率较高 ;

Query:  国际争端新闻
0.48	加沙停火协议关键时刻生变
0.46	乌军大批直升机击落多架俄无人机
0.32	王力宏回应是否想找新伴侣
0.27	李彦宏称大模型成本每年降低90%
0.27	饺子不知道观众怎么想出的藕饼cp
Scores: [0.27200806 0.45998368 0.31697848 0.26541045 0.4793131 ]
Indices: [4 1 2 0 3]