干货 | NLP在携程机票人工客服会话分类中的应用

作者简介

 

毛毛,携程高级数据挖掘工程师,热爱自然语言处理和推荐系统。


一、背景介绍

携程一直注重用户的服务效率与服务体验,在售前、售中、售后全过程中给用户提供高效的客服支持。

用户访问客服页面后,会首先与智能客服进行对话,当智能客服给出的回答无法解决用户问题时便会接入人工客服,再由人工客服给出专业的解答。对话完成后,系统根据人工客服会话内容,应用NLP相关技术给出会话类别。这一结果将直接指导客服的管理与决策。本文将主要介绍携程机票在人工客服会话分类时使用的相关NLP技术和优化方案。

图1-1 智能客服会话与客服会话

二、问题分析

人工客服会话分类时主要使用的数据是客服与用户的文本对话内容,本质上是NLP(自然语言处理)领域中文本分类的问题。文本分类的应用领域如文档主题分类、情感分类、垃圾邮件分类等。现阶段经典的文本分类方法包括:基于统计数据特征构建文本分类模型、基于词向量和深度学习网络构建文本分类模型、基于预训练语言模型构建文本分类模型。

传统的文本分类方法通常是基于统计数据构建文本特征,然后采用线性模型、SVM支持向量机模型等进行文本分类。传统文本分类方法中的文本表示方式包括布尔模型、向量空间模型、概率模型、潜语义模型等,如图2-1所示。

图2-1 文本表示方式

随着深度学习的发展与应用,文本表示方式也发生了变化,可以直接将文本中的字或词作为输入,在如CNN (convolutional neuralnetworks,卷积神经网络) 或LSTM (recurrent neuralnetworks based on long short-term memory,长短期记忆人工神经网络) 等网络结构中加入embedding层 (嵌入层) ,而后自动获取文本的特征表达。embedding层是将高维向量映射到低维空间的过程,经典的embedding方法如word2vec是将词转化成可计算的结构化向量。Word2vec包含两种训练模式CBOW (ContinuousBag-of-Words Model) 和Skip-gram (Continuous Skip-gram Model) (如图2-2所示)。CBOW是通过上下文来预测当前词,Skip-gram是以当前词作为特征来预测上下文。由于 Word2vec 会考虑上下文,相较于传统的文本表示方法效果更好。

图2-2 Word2vec的两种训练模式

2018年左右,注意力机制 (Attention) 被广泛地应用到自然语言处理任务中。Attention是模仿人脑中的信号处理机制,即人类视觉在观察图像时,会在一些局部区域上投入注意力,重点关注。Attention的本质可以被描述为一个查询 (query) 到一系列 (键key-值value) 对的映射,如图2-3所示。在文本分类任务中,可以通过引入self-attention机制的方式识别长文本中不同词语在不同类别的重要性。self-attention机制即自己注意自己,简单地说在self-attention中Query=Key=value,每个词会与同一句话中另外的词做计算,这样更能够把握句子中词与词的句法特征、语义特征。

图2-3 Attention 键值对映射

近年来,随着Transformer架构的提出,一大批预训练语言模型刷新众多NLP任务,如Bert、XLNet等。这些模型首先使用大规模文本语料库进行预训练,并对特定任务的小数据集微调࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值