SereTOD2022 Track2代码剖析-面向半监督和强化学习的任务型对话系统挑战赛

最新推荐文章于 2024-07-08 10:46:46 发布

AIMasterStar

最新推荐文章于 2024-07-08 10:46:46 发布

阅读量282

点赞数

CC 4.0 BY-SA版权

分类专栏：智能语音对话与AI大模型文章标签：人工智能深度学习自然语言处理神经网络

本文链接：https://blog.youkuaiyun.com/AIMasterStar/article/details/125980902

智能语音对话与AI大模型专栏收录该内容

17 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文详细剖析SereTOD2022挑战赛Track2的基准方法和实现，涵盖数据预处理、模型结构、训练与预测流程，以及评估方法。任务涉及构建基于半监督和强化学习的对话系统，使用BERT和GPT2作为NLU和NLG的基础，并通过序列化对话轮决策进行建模。

SereTOD2022挑战赛是清华大学欧智坚老师团队和中移动冯俊兰老师一同举办的，附属在EMNLP2022的面向半监督和强化学习的任务型对话系统研讨会。该数据集面向真实业务场景，口语对话转录，复杂度极高，挑战赛公开的数据意义重大，基准代码的NLU基于BERT实现，NLG基于GPT2实现，有较好的学习价值。因此，我们在此详细剖析一下该挑战赛Track2的基准方法与实现代码。关于任务设置和数据标注规则可参见另外一篇博文。

GITHUB代码库：https://github.com/SereTOD/SereTOD2022

0. 数据分析：

0.1 数据统计

1. Track2赛道：构建任务型对话系统

2.6.1 首先预测当前对话轮提及到的实体

2.6.2 然后预测当前对话轮的用户意图并构建局部知识库查询结果

2.6.3 其次预测当前轮客服意图

2.6.4 最后预测当前轮客服响应文本

2.7 评估方法

0. 数据分析：

0.1 数据统计

有标注数据：一共有8975个对话，其中，客服在前: 8894 用户在前: 59 其他情况: 22。对话轮回一共100139次，其中，客服在前: 99416 用户在前: 723。对话中出现其他情况有22个样本大部分是数据标注错误，可摒弃。

无标注数据：一共有87933个对话，972513个对话轮回。

1. Track2赛道：构建任务型对话系统

1.1 数据预处理

# ./Track2/baseline/preprocess.py 针对Track2进行KB和Goal提取的数据处理脚本
# 输入文件：标注数据 data_label.j

了解本专栏

超级会员免费看