模型
模型主要包括四部分: Input representation, Attend, Compare, Aggregate

Input representation
最简单的方式就是直接将词向量作为输入.更复杂的方式见后面optinal部分.
Attend
首先计算a和b中的每个词之间的attention weights

F是一个激活函数为ReLU的前馈神经网络。
attention权重如下:

Compare
该模块的功能主要是对加权后的一个句子与另一个原始句子进行比较

这里的G也是一个前馈神经网络
Aggregate
上一步得到两个比较向量的集合,分别求和

将两个向量concatenate后使用前馈神经网络进行分类, 损失函数利用交叉熵损失函数


Intra-Sentence Attention(Optional)
上面的模型使用词向量作为输入, 除此之外, 还可以在每个句子中使用句子内的attention方式来加强输入词语的语义信息.

这里 F i n t r a F_{intra} F