引入多模态的说服型任务导向虚拟销售代理
1. 多模态说服的优势与研究贡献
多模态在说服过程中极为有效,用户通过视觉传达信息比单纯使用文本更高效,能一次性传达更多内容。为使对话更具吸引力,研究选取了 UBAR 并进行修改,以实现多模态说服。主要贡献有两点:
- 创建了面向电子商务行业的综合、定制化多模态对话语料库 PPMD,标注了意图、槽位、情感、用户角色和对话行为等语义数据,包含多种情境下的多模态对话。
- 首次尝试创建一个完整的对话代理,能在目标不可用或用户不满时,用多模态响应说服用户。
2. 相关工作
- 任务导向虚拟代理 :近年来,预训练模型如 GPT - 2 应用广泛。Budzianowski 和 Vulic 指出可在 GPT - 2 上微调关键信息,Yang 等人稍作调整就创建了超越以往的端到端任务导向代理。
- 说服型虚拟代理 :有研究尝试在自然语言生成(NLG)模块中加入说服功能,部分研究聚焦于对话状态跟踪(DST)模块,以识别和响应动态用户需求。
- 多模态对话生成 :近期研究致力于在对话系统中加入图像、音频和视频等多种模态。如提出视觉对话任务,让 AI 与人类就视觉内容进行有意义对话;还有设计对话状态跟踪模块,以多模态响应处理动态用户需求。
3. 数据集
研究考察了多种基准任务导向语料库,但未找到合适的单一数据集。现有数据集各有特点,具体如下表所示:
| 数据集 | 性质 | 任务 | 多意图 | 动态目标 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



