自然语言处理&知识图谱
论文阅读记录
本人以前是搞深度学习和图像相关的,由于种种原因和个人规划,开始转做自然语言处理和知识图谱相关的研究。由于有一定基础,所以对NLP内容理解起来也比较方便,目前已经补充和学习了一些知识,以后用本文记录一些我阅读的文献。
论文
Huang et al. ACL 2012, 多义词表示
Huang, Eric H , et al. “Improving word representations via global context and multiple word prototypes.” Meeting of the Association for Computational Linguistics: Long Papers Association for Computational Linguistics, 2012.
本文是较早用于解决word embedding一词多义的文章,也是比较基本的方法。思路:1. 先使用普通方法训练得到word vectors. 2. 给定词w和窗口大小L,在语料库中筛选出包含词w的所有句子(句子长度保留2L+1). 3. 对这些包含词w的句子聚类(k-means)成多个簇,然后把单词w按照簇分成好多种,w_1,w_2,…w_n. 4. 把原有语料库中的w替换成对应的w_i,看成不同的词. 4. 换下一个词w,重新进行2-4操作,直到所有词都细分完。5. 重新训练词向量。 这样不同含义的词就有不同的词向量了,输入一个词时,先根据所在句子判断是哪个簇的,然后在使用对应的词向量。