31、结构化分层对话策略与在线对话状态跟踪的深度强化学习-优快云博客

本文链接：https://blog.youkuaiyun.com/read5/article/details/151709449

结构化分层对话策略与在线对话状态跟踪的深度强化学习

结构化分层对话策略 ComNet

在对话系统中，复合任务的处理一直是一个重要的研究方向。为了更有效地处理复合任务，研究人员提出了 ComNet 这一结构化分层对话策略。

ComNet 的特性

ComNet 由两个图神经网络（GNN）表示。虽然顶层 GNN 和底层 GNN 的输入模块和图信息提取模块的参数不共享，但每个单独的 GNN 中有许多共享参数。当复合任务发生变化，某个子任务添加新槽时，只需在每个 GNN 中创建新节点。若边类型数量不变，添加新节点后 GNN 的参数保持不变，这种特性使得 ComNet 具有可迁移性。一般来说，如果复合任务 Task1 的节点类型集和边类型集都是另一个任务 Task2 的子集，那么在 Task2 中学习到的 ComNet 策略可以直接用于 Task1。同时，由于同一类型节点的初始输出具有相似的语义含义，它们在 ComNet 中共享参数。研究人员希望利用 GNN 基于初始输入和最终输出的连接来传播图中节点之间的关系。

实验验证

为了验证 ComNet 的有效性和可迁移性，研究人员进行了一系列实验。
- PyDial 基准测试 ：使用 PyDial 工具包构建复合任务环境。该工具包支持多领域对话模拟和错误模型，为实验提供了良好的基础。研究人员修改了策略管理模块和用户模拟模块，以支持三个可用子任务（剑桥餐厅（CR）、旧金山餐厅（SFR）和笔记本电脑通用购物任务（LAP））之间的 2 - 子任务复合对话模拟，并保留了不同级别的错误模拟。
| 复合任务 | 约束数量 | 请求数量 | 数据库结果值数量 | 环境 | 语义错误率（SER） |
| — | — | — | — | — | — |
| CR + SFR | 9 | 20 | 904 | Env. 1 | 0% |
| CR + LAP | 14 | 30 | 525 | Env. 2 | 15% |
| SFR + LAP | 17 | 32 | 893 | Env. 3 | 30% |

实现的代理 ：
- Vanilla HDQN ：使用多层感知器（MLPs）作为模型的分层代理，作为比较的基线。
- ComNet ：利用 GNN 灵活性的框架。
- Hand - crafted ：一个精心设计的基于规则的代理，在无噪声的复合对话中具有较高的成功率，用于预热前两个代理的训练过程。

训练过程中，使用 6000 个对话或迭代进行模型训练，将训练对话总数分解为 30 个里程碑（每个里程碑 200 次迭代），在每个里程碑处使用 100 个对话测试对话策略的性能。

实验分析 ：
- 性能比较 ：从实验结果可以看出，在所有九种设置（3 个环境 * 3 种复合任务）中，ComNet 在成功率和学习速度上都优于 Vanilla MLP 策略。ComNet 的顶层策略和底层策略都由 GNN 表示，相同类型的节点和边共享参数，这意味着相同类型的节点共享输入空间（信念状态空间），从而大大减少了探索空间。
- 对话分析 ：比较 Vanilla HDQN 和 ComNet 在 6000 次对话训练后产生的对话差异。结果显示，Vanilla HDQN 代理在某些特定对话状态下仍无法选择合适的动作，导致客户耐心丧失；而 ComNet 一旦获得所需信息，就能推动对话进展，成功完成任务，表明 ComNet 比 Vanilla 框架更具样本效率。
- 可迁移性验证 ：为了评估 ComNet 的可迁移性，研究人员先在 CR + SFR 任务上训练 6000 个对话，然后使用训练好的策略初始化其他两个复合任务的策略模型参数，并继续训练和测试模型。结果表明，在 CR + SFR 任务上学习的迁移模型与其他两个复合任务兼容，说明 ComNet 可以基于初始节点输入和最终输出的连接传播图节点之间与任务无关的关系，有助于解决任务导向对话系统中的冷启动问题。

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;

    A(开始训练 CR+SFR 任务):::process --> B(训练 6000 个对话):::process
    B --> C(初始化其他任务策略模型参数):::process
    C --> D(继续训练和测试其他任务):::process
    D --> E(评估迁移模型兼容性):::process

在线对话状态跟踪的深度强化学习

对话状态跟踪（DST）是对话管理中的关键模块，但传统上它通常被视为监督训练问题，不利于在线优化。研究人员提出了一种基于深度强化学习（DRL）的新型同伴教学框架，用于在线 DST 优化。

背景与问题

任务导向的口语对话系统通常由输入、输出和控制三个模块组成。输入模块包括自动语音识别（ASR）和口语语言理解（SLU），用于从用户语音信号中提取语义级别的用户对话动作；控制模块（对话管理）有两个任务，一是通过对话状态跟踪（DST）维护对话状态，二是选择语义级别的机器对话动作来响应用户；输出模块包括自然语言生成（NLG）和文本转语音（TTS）合成，将对话动作转换为音频。然而，由于存在不可避免的 ASR 和 SLU 错误，难以跟踪真实的对话状态并做出决策。传统的 DST 算法主要分为手工规则、生成模型和判别模型三类，这些基于监督学习的方法依赖离线标记数据，存在泛化能力差和过调的问题，且由于缺乏标签，难以用于 DST 的在线更新。

创新方法

研究人员将深度确定性强化学习方法引入 DST 模块，将基于 DRL 的 DST 模块称为跟踪代理。为了限制跟踪代理的搜索空间，提出了同伴教学框架。在该框架下，可以使用各自的深度强化学习算法联合训练跟踪代理和对话策略代理，使这两个代理相互适应。

同伴教学框架 ：该框架为在线 DST 提供了一种灵活的优化方式，使得 DST 能够在在线对话系统中进行优化。
联合训练 ：通过联合训练 DST 代理和对话策略代理，可以进一步提高对话系统的性能。

结构化分层对话策略与在线对话状态跟踪的深度强化学习

结构化分层对话策略 ComNet 总结与优势

ComNet 作为一种结构化分层对话策略，在多个方面展现出显著优势。它通过图神经网络（GNN）的运用，充分发挥了对话状态的结构信息，相较于传统使用多层感知器（MLPs）的方法，能够更高效地处理复合任务。

参数共享与灵活性 ：ComNet 中同一类型的节点和边共享参数，这不仅减少了模型的探索空间，还使得在复合任务发生变化时，只需创建新节点，若边类型数量不变，GNN 的参数可保持不变，体现了其高度的灵活性。
性能优势 ：在实验中，ComNet 在成功率和学习速度上全面超越 Vanilla MLP 策略，并且在样本效率方面也表现出色，能够更有效地利用训练数据，推动对话进展并成功完成任务。
可迁移性 ：ComNet 的可迁移性是其一大亮点。通过在一个任务上训练，其策略可以迁移到其他相关任务中，有助于解决任务导向对话系统中的冷启动问题，提高训练效率。

在线对话状态跟踪深度强化学习的实施步骤

为了实现基于深度强化学习的在线对话状态跟踪（DST）优化，需要按照以下步骤进行：

构建同伴教学框架
- 确定跟踪代理和对话策略代理的交互方式，确保两者能够在框架内协同工作。
- 设计合适的奖励机制，用于激励跟踪代理和对话策略代理朝着优化对话状态跟踪和对话策略的方向发展。
初始化跟踪代理和对话策略代理
- 使用合适的深度强化学习算法初始化跟踪代理和对话策略代理的模型参数。
- 可以考虑使用预训练的模型或随机初始化参数，根据具体情况选择合适的初始化方式。
联合训练过程
- 在对话系统运行过程中，同时对跟踪代理和对话策略代理进行训练。
- 跟踪代理根据当前对话状态更新其对对话状态的估计，对话策略代理根据跟踪代理提供的对话状态选择合适的对话动作。
- 根据对话的结果，更新跟踪代理和对话策略代理的模型参数，以提高它们的性能。
评估与优化
- 定期评估跟踪代理和对话策略代理的性能，使用合适的评估指标，如对话成功率、平均对话长度等。
- 根据评估结果，调整训练参数和奖励机制，进一步优化跟踪代理和对话策略代理的性能。

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;

    A(构建同伴教学框架):::process --> B(初始化代理):::process
    B --> C(联合训练):::process
    C --> D(评估与优化):::process
    D --> C{是否满足要求?}:::process
    C -->|否| C(联合训练):::process
    C -->|是| E(完成训练):::process

综合应用与未来展望

将结构化分层对话策略 ComNet 与在线对话状态跟踪的深度强化学习方法相结合，可以为对话系统带来更强大的性能和更好的用户体验。

应用场景
- 在智能客服系统中，能够更准确地理解用户需求，高效地处理复合任务，提高客户满意度。
- 在智能语音助手领域，增强对话的连贯性和智能性，更好地满足用户的多样化需求。
未来发展方向
- 进一步优化 ComNet 的结构和算法，提高其在更复杂复合任务中的性能。
- 探索更有效的联合训练方法，提高在线对话状态跟踪和对话策略的协同优化效果。
- 结合更多的领域知识和外部信息，提升对话系统的泛化能力和适应性。

总之，结构化分层对话策略 ComNet 和在线对话状态跟踪的深度强化学习方法为对话系统的发展提供了新的思路和方法，有望在未来的智能对话领域发挥重要作用。通过不断的研究和实践，相信这些技术将不断完善，为人们带来更加智能、高效的对话体验。

技术特点	ComNet	在线 DST 深度强化学习
主要优势	灵活性、可迁移性、性能优越	在线优化、联合训练
适用场景	复合任务处理	对话状态跟踪优化
关键技术	图神经网络	深度强化学习、同伴教学框架