一、前言
伴随着AIGC浪潮的涌起,Embedding技术作为助推AIGC的关键因素逐渐为更多人所熟知。随着该技术的应用日益广泛,使用Embedding的人群也与日俱增。关于Embedding的最早提法可追溯至2012年Google的Word2vec论文。时至今日,Embedding经历了超过十年的发展历程,从最初的Word Embedding,发展到Sentence/Paragraph Embedding,并扩展至结构化数据、图像处理、语音识别以及多模态等多个方向,以至于有“万物皆可Embedding”的说法。模型的训练框架也由最初的浅层网络逐步发展为以Transformer为核心的深度学习网络。
数据科学应用中心很早便开始广泛使用Embedding技术,在众多项目中都可见其身影。本文将首先介绍数科Embedding技术的应用案例,展示了如何通过将Embedding技术与其他算法相融合,以提升排序效果。紧接着,详细介绍了模型效果的评价方法。最后,展示了与OpenAI的Embedding模型、开源Embedding模型S-Bert的效果对比。在众安FAQ数据集和中文通用FAQ数据集上,众安Embedding模型各项指标都处于领先位置。
二、案例介绍
Embedding技术可以用来进行相似度计算,如:文本、图像、语音等的相似度。因此,它在搜索业务中得到广泛应用,可以直接用于搜索,也可以作为整个搜索链路中的一部分。同时,还可以作为特征用于提升推荐、聚类、分类排序等各类算法的应用效果。
2.1 概述
目前,Embedding被应用到智能客服、金融风控、企微赋能等多个项目中,为业务突破提供助力。
-
在智能客服场景中,FAQ检索是非常重要的模块。用户的问题会被拿到知识库中检索,找到与之匹配的标准问题,然后将标准问题对应的答案返回给用户。在知识库检索中,我们用到了基于向量的检索(Embedding Based Retrieval, EBR),用户问题Embedding后,通过EBR召回部分问题。EBR作为召回层的其中一路(图1),用于提升整个流程的召回准确率。在客服FAQ数据集上,Top1标准问题召回率97.6%, Top5标准问题召回率99.7%。
-
在金融风控场景中,团伙报案连续性强、数量多、危害大,业务日均审批单流量非常大,人工方式从海量的历史图片中挖掘出数百张相似图片,难度非常大。数科算法部图像组应用基于向量的检索方法后,线上相似场景识别率接近100%,在仅有CPU资源的条件下,实现了数百毫秒的服务耗时。
-
在企微赋能场景中,坐席通常需要同时服务非常多的用户,选出高意向度用户精准服务就非常的关键。通过Embedding + Attention(注意力机制),用户的属性信息及多个时间段会话文本被精准的融合在一起计算用户的投保意向度。相关模型上线后,7日内转化率提升80%, 人均保费提升10%。
2.2 案例详解
我们挑选了FAQ检索的案例给大家做更为详细的介绍,描述如何将Embedding技术与其他算法结合提升FAQ的排序效果。但在这之前,需要先明确算法里面速度和准确率的权衡和基于向量的检索相关知识,这对不熟悉的同学理解我们的架构非常重要。

本文介绍了Embedding技术的发展历程、在数据科学中的应用,特别是众安Embedding在智能客服、金融风控和企微赋能中的案例,以及模型评估方法,展示了其在FAQ检索中的优势。
最低0.47元/天 解锁文章
5442

被折叠的 条评论
为什么被折叠?



