SereTOD2022挑战赛是清华大学欧智坚老师团队和中移动冯俊兰老师一同举办的,附属在EMNLP2022的面向半监督和强化学习的任务型对话系统研讨会。该数据集面向真实业务场景,口语对话转录,复杂度极高,挑战赛公开的数据意义重大,基准代码的NLU基于BERT实现,NLG基于GPT2实现,有较好的学习价值。因此,我们在此详细剖析一下该挑战赛Track2的基准方法与实现代码。关于任务设置和数据标注规则可参见另外一篇博文。
GITHUB代码库:https://github.com/SereTOD/SereTOD2022
目录
2.6.2 然后预测当前对话轮的用户意图并构建局部知识库查询结果
0. 数据分析:
0.1 数据统计
有标注数据:一共有8975个对话,其中,客服在前: 8894 用户在前: 59 其他情况: 22。对话轮回一共100139次,其中,客服在前: 99416 用户在前: 723。对话中出现其他情况有22个样本大部分是数据标注错误,可摒弃。
无标注数据:一共有87933个对话,972513个对话轮回。
1. Track2赛道:构建任务型对话系统
1.1 数据预处理
# ./Track2/baseline/preprocess.py 针对Track2进行KB和Goal提取的数据处理脚本
# 输入文件:标注数据 data_label.j
本文详细剖析SereTOD2022挑战赛Track2的基准方法和实现,涵盖数据预处理、模型结构、训练与预测流程,以及评估方法。任务涉及构建基于半监督和强化学习的对话系统,使用BERT和GPT2作为NLU和NLG的基础,并通过序列化对话轮决策进行建模。
订阅专栏 解锁全文
479

被折叠的 条评论
为什么被折叠?



