导读:飞桨PaddlePaddle致力于让深度学习技术的创新与应用更简单。飞桨开源的百度自研SimNet-BOW-Pairwise语义匹配模型,在真实的FAQ问答场景中,比其他基于字面的相似度方法AUC提升了5%以上。在公开语义匹配数据集(LCQMC)进行评测准确率也达到了0.7532,性能超越同等复杂的CBOW基线模型。SimNet 显著改善了长冷 query 的搜索效果,提升了搜索智能化的水平,在百度搜索以及其它产品线广泛应用。
1.文本语义匹配
文本语义匹配是自然语言处理中一个重要的基础问题,NLP领域的很多任务都可以抽象为文本匹配任务。例如,信息检索可以归结为查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。如何提升文本匹配的准确度,是自然语言处理领域的一个重要挑战。
让我们来看一个简单的例子,比较各候选句子哪句和原句语义更相近
原句:“车头如何放置车牌”
-
比较句1:“前牌照怎么装”
-
比较句2:“如何办理北京车牌”
-
比较句3:“后牌照怎么装”
使用文本匹配(这里使用SimNet)分别计算原句与三个比较句的相似度,结果如下。
(1)比较句1与原句,虽然句式和语序等存在较大差异,但是所表述的含义几乎相同,所以SimNet给出了较高的相似度,为0.761517;
(2)比较句2与原句,虽然存在“如何” 、“车牌”等共现词,但是所表述的含义完全不同,所以SimNet给出了很低的相似度,为0.486205;
(3)比较句3与原句,二者讨论的都是如何放置车牌的问题,只不过一个是前牌照,另一个是后牌照。二者间存在一定的语义相关性,所以SimNet给出了介于比较句1和比较句2之间的相似度得分,为0.697181。
通过这个例子我们不难窥探出语义匹配的强大的能力,它在搜索优化、推荐系统、快速检索排序、智能客服上都有着极大的用武之地!
-
信息检索:在信息检索领域的很多应用中,都需要根据原文本来检索与其相似的其他文本,使用场景非常普遍。除纯文本检索外,SimNet还适用于通过标签来检索图片、视频等场景,大大提高检索效率。
-
新闻推荐:通过用户刚刚浏览过的新闻标题,自动检索出其他的相似新闻,个性化地为用户做推荐,从而增强用户粘性,提升产品体验。
-
智能客服:用户输入一个问题后,自动为用户检索出相似的问题和答案,节约人工客服的成本,提高效率。