对话生成、修辞协调与语篇解析技术探索
1. 对话生成作为语言建模
将响应生成视为一个语言建模问题。给定对话历史 $s$,语言模型对响应中的标记序列 $t = t_1, \cdots, t_n$ 定义如下概率:
[p(t|s) = p(t_1|s)\prod_{i = 2}^{n}p(t_i|s, t_1, \cdots, t_{i - 1})]
其中,$s, t_1, \cdots, t_{i - 1}$ 表示 $s$ 与 $t_1, \cdots, t_{i - 1}$ 的连接。
通常使用 Transformer 架构进行序列到序列建模。Transformer 由编码器和解码器组成,编码器将输入序列嵌入到潜在空间,解码器以输入序列的嵌入为输入生成输出序列。编码器为输入序列中的每个标记生成编码,这些编码被输入到解码器以生成输出序列。为了生成位置 $i$ 的标记,解码器对从 1 到 $i - 1$ 生成的标记进行编码(像编码器一样),通过在输入标记的编码和输出标记 1 到 $i - 1$ 的编码之间执行注意力计算注意力表示,然后将注意力表示输入到 softmax 层以生成标记 $i$。Transformer 通过最大化响应在对话历史条件下的条件似然来学习编码器和解码器中的权重。
语言模型可能会产生不具体、平淡且质量低的响应。Li 等人(2016)建议通过选择具有最大点互信息(PMI)的响应来提高其质量,以保持特异性。两个事件 $(x, y)$ 之间的 PMI 是在给定另一个事件 $y$ 的情况下一个事件 $x$ 的概率变化的度量:
[pmi(x;y) \equiv \log \frac{p(x|y)}{p(x)}]
对话改写可以定义
超级会员免费看
订阅专栏 解锁全文
34

被折叠的 条评论
为什么被折叠?



