这是google放在arvix上的一篇论文,写得是非常轻松随意,模型也很简洁,结果自称Modest。
对话只做到了一问一答,没有做到多轮,采用了两层LSTM进行建模,4096 cells大小,100K words, 到输出层的时候将4096 cells投影到2048 units。(OpenSubtitles dataset 上的配置,在另外一个小数据集上,cell的大小会变得小一点)
模型:
在推理时两种处理方案:1)每一步都做贪心 2) beam search
两个还比较大的对话数据集:
1. IT Helpdesk Troubleshooting dataset
30M tokens, and 3M tokens as test
2. OpenSubtitles dataset
Our training and validation split has 62Msentences (923M
tokens) as training examples, and the validation set has
26M sentences (395M tokens
Result:
dataset | rnn | ppl |
---|---|---|
OpenSubtitles | 17 | 28 |
IT Helpdesk Troubleshooting dataset | 8 | 18 |
一个有意思的sample: