百度技术学院-智能对话训练师学习笔记

本文详细介绍智能对话系统的训练流程,包括数据收集、清洗、分类和标注,对话模型配置与评估,以及效果优化策略。强调了智能对话训练师的角色与能力要求。

百度技术学院-智能对话训练师视频链接:https://bit.baidu.com/productsBuy?id=108

智能对话市场与就业前景

智能对话训练师的职责
一:收集真实场景下的问法及相关数据并进行数据的清洗、分类和标注
二:配置出可用的对话模型,并合理评估出对话效果
三:能够持续优化模型、不断提升技能的对话理解效果

智能对话训练师的能力要求
一:数据处理-从数据中分析出关键的信息,数据清洗、分类、标注
二:行业背景-了解专业术语知识
三:AI技术边界:清楚知道可以实现什么、不能实现什么
四:AI行业思考:设计相应方案

智能对话系统概念整体介绍

UNIT知识体系及术语介绍
Query:用户的话/请求
INTENT:用户话的目的/意图
SLOT:用户话中的关键信息(称之为:词槽)
UNIT系统话术定义及示例


流程
在这里插入图片描述

UNIT机器人功能介绍

百度UNIT机器人:http://unit.baidu.com

UNIT技能等相关功能介绍

  1. 问答技能: FAQ–Question and Answer
    技能需要:先训练-再测试
    UNIT具有泛化内容
  2. 对话技能:包含意图(多个词槽)
    根据业务选择词槽

UNIT训练数据功能介绍

  1. 训练数据-对话模版-对话样本集(配置模版)
  2. 技能训练

UNIT优化工具能力介绍

  1. 交互学习日志(局限性)–生僻的问法句子加入到训练数据中;
  2. 对话日志–重点关注未识别failure的部分
    clarify命中意图,需要澄清词槽
    satisfy对话完成,收集完成所有信息
    failure模型识别不到的query
  3. DataKit-训练数据生产与标注辅助工具
    样本自动获取、样本自动筛选、样本预处理DataKit

如何处理对话语料

  1. 场景数据收集: 任务型、问答型
  • 数据清洗:剔除无效数据,保留有效数据
    有效数据:句式、信息量、问法
    无效数据:直接替换词槽词典值、存在歧义
  • 数据分类
  • 关键数据标注(参数标注出来,词槽标注)
  • 词槽提取及词典值方案确认
    在这里插入图片描述
  1. 场景数据的三种使用方式:开发集、评估集、测试集(数据不足,优先保证开发集、测试集)
    在这里插入图片描述
  2. 富集数据能力不同的解决方案
    在这里插入图片描述

如何定义一个对话系统

训练智能对话技能的总体流程:
需求分析:对话场景确认-需求要做什么-需要哪些信息
创建训练技能
持续优化
在这里插入图片描述
预约办事场景的对话技能:
意图(预约)-预约申请所包含的词槽
在这里插入图片描述
在这里插入图片描述

如何配置训练数据

训练数据:用数据教会机器人你定义的对话技能。
已完成:添加技能-添加技能里对应的意图及词槽-定义整个对话系统-训练数据(教会机器人你定义的对话技能)

训练策略:快速生效、深度训练

如何进行效果评估

平台提供的测试工具评估对话效果,根据准确率和召回率判断后续优化的方向。
在这里插入图片描述

在这里插入图片描述
评估集文件要求:
txt文件,一行一个样本,顺序依次为:query,意图,词槽。三者之间以’\t’分隔,词槽之间以’###’分隔,编码为utf-8。再次提醒,评估样本建议为真实场景下的样本,请勿凭空构造。评估集中的每条样本都要标注意图、词槽(没有词槽的只标意图),其中正例样本是指需要识别为场景中意图的样本,例如上面评估查天气的BOT的评估样本中意图为ASK_WEATHER的都是正例样本。而对于当前bot对应场景不应该识别的对话 都可以标为负例样本,同系统预置的负例意图SYS_OTHER 表示。

帮助文档:https://ai.baidu.com/forum/topic/show/870435

效果优化与线上运营迭代

对话测试窗口,线上实时对话,可查看完整接口返回的JSON数据,定位问题。
正常:识别出意图-词槽-做出澄清回复。
错误:不理解句子时,需要查看JSON数据(schema、qu_res重点看、action_list),其中qu_res中的“lexical_analysis”有这条Query的具体解析结果,etypes中没有命中词槽说明词典值没有被识别;etypes中有命中词槽说明词槽有被识别。
通常建议:召回率80%、准确率90%达标。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

交互学习日志(优先级低)
对话日志
DataKit(线上优化迭代,模型已经达到了较好的泛化效果,提升时才可以用到):目标是帮助大家低成本地把模型理解效果从80分往90分,从90分往95分去优化。
在这里插入图片描述

补充ing

系统对接
在这里插入图片描述
对话模版:用户常用的语言表述规则,通过不同的用法,可以实现对不同形态的query的解析。
在这里插入图片描述
对话样本:把需求分析阶段手机的对话样本导入样本集,进行意图和词槽的标注。

三种训练数据该如何选择?
在这里插入图片描述
单个技能中对话可以正确识别意图,但是和机器人对话就不能正确识别意图。–由于用到了干预学习能力,干预学习能力需要加入到训练数据中进行训练后,才可以在其他地方使用的。
Unit有自动获取对话样本集的功能,起码要很多条数据以上,才会有作用。
样本集怎样帮助机器人理解的呢,什么原理?–深度学习算法训练出的模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值