AI快车道PaddleNLP系列直播课1|PaddleNLP助力万方优化搜索匹配

本文链接：https://blog.youkuaiyun.com/qq_42030496/article/details/122536748

针对搜索场景中关键字搜索的语义匹配难题，本文介绍了技术选型与实施方案，包括选择SentenceBERT的原因及其优势，利用SimCSE构建弱监督数据的方法，以及模型优化策略如模型压缩、TensorRT加速等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3.2 PaddleNLP检索场景解决方案

3.3 SimCSE

四、模型优化

4.1 模型性能优化

4.2 模型层数12压缩到6层&动态图转静态图（训练阶段）

4.3 tensorRT加速（推理阶段）

4.4 性能提升效果

五、未来方向

飞桨AI Studio - 人工智能学习实训社区 (baidu.com)共七节课，本文为第一节课

万方的搜索场景中，关键字搜索需要语义相似，针对这个需求，在技术选型和方案实施中，word2vec和fasttext太简单了、bert计算量太大且LM模型不能满足各向异性，最后选择了表示模型和交互模型的sentencebert，其对bert进行改造使用了双塔结构。

为了将大规模的无监督数据利用起来，可以用SimCSE构造弱监督数据，这也是一种数据增强的方法。（用自己的语料训练一个bert，对其微调构建出SimCSE，SimCSE可以构建出弱监督的数据，放进语义索引训练得到sentencebert，再用标注数据通过sentencebert得到向量，经过排序模型就可以在构建一批弱监督数据，对之前的弱监督数据进行增强，继续训练sentencebert）

SimCSE是一个简单的对比学习，句子通过encoder其实就是bert，得到两个不同的向量，作为正例去学习。原生满足alignment、uniform和anisotropy三个指标。
在模型优化部分，优化策略分别是模型裁剪（减少层数）、动态图转静态图、tensorRT加速等方法，优化效果按序成倍递增，这些都可以在PP中用寥寥几行代码来实现。未来可以尝试在线学习和图神经网络的方法，图神经网络可以学习到深层语义

一、搜索场景中的技术难点

按关键字搜索时，字面相似但语义不相关

“人工智能在数字图书馆中的应用” 检索结果为 “人工智能在图书馆数字阅读推广服务中的应用”

二、技术选型与方案实施

搜索系统架构
- 全文搜索引擎
- 向量搜索引擎

2.1 相关性的两个维度

字面匹配：利用solr或ess做召回
语义匹配：利用向量引擎做召回

2.2 文本相关性

TF-IDF：TF文档频率，当前检索词在文档中出现次数越多这篇文档越重要。IDF当前的query在所有的文档中出现的次数越多这篇文档越重要

（1）TF是词频(Term Frequency)
词频（TF）表示词条（关键字）在文本中出现的频率。

这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。

公式：即：

   其中 ni,j 是该词在文件 dj 中出现的次数，分母则是文件 dj 中所有词汇出现的次数总和；

（2） IDF是逆向文件频率(Inverse Document Frequency)
逆向文件频率 (IDF) ：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。

如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。

公式：

   其中，|D| 是语料库中的文件总数。 |{j:ti∈dj}| 表示包含词语 ti 的文件数目（即 ni,j≠0 的文件数目）。如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用 1+|{j:ti∈dj}|

即：

（3）TF-IDF实际上是：TF * IDF
某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

公式：

注： TF-IDF算法非常容易理解，并且很容易实现，但是其简单结构并没有考虑词语的语义信息，无法处理一词多义与一义多词的情况。

词频/权重/覆盖率
紧密度/同义词

2.3 词向量模型

word2vec和fasttext太浅，太简单了，不能满足深度语义提取

希望来使用bert和ERNIE，文本相关和语义文本相似度sts任务上表现的很好