论文原文:Word Embeddings based on Fixed-Size Ordinally Forgetting Encoding
引言
EMNLP刚刚结束,在浏览accepted paper后,选择了几篇作为近期的论文阅读。之前一直看的都是句子建模的文章,这次换了换口味,看看词向量建模的最近工作。通读全文下来,这是一篇组合了前人的方法利用单词的上下文(context)来学习词向量的文章,并且意外发现了Fixed-Size Ordinally Forgetting encoding(FOFE)这个序列建模方法。
FOFE based Embedding
作者是基于distributional hypothesis进行一系列设计的。首先,为了能够完整体现distributional hypothesis,作者对目标词的上下文(文章中称为focus word的left context和right context)进行了完全的编码。其次作者认为,距离目标词越近的单词在编码目标词的上下文时越重要。
在本文中,作者直接将Fixed-size ordinally-forgetting encoding(FOFE)方法作为唯一编码方法对所有由离散单词组成的不定长序列进行编码。
FOFE
给定词表大小(vocabulary size)为K,FOFE使用one-hot编码来表示,每一个单词,即一个K维向量来表示单词。FOFE使用下列公式对不定长序列进行编码:
zt=α∗zt−1+et(1≤t≤T)
其中, zt 表示从输入序列中由第一个单词 w1 直到第t个单词