自然语言处理&知识图谱论文阅读

最新推荐文章于 2025-05-28 10:40:09 发布

autoliuweijie

最新推荐文章于 2025-05-28 10:40:09 发布

阅读量1.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：自然语言处理知识图谱

本文链接：https://blog.youkuaiyun.com/autoliuweijie/article/details/86592978

自然语言处理同时被 2 个专栏收录

5 篇文章

订阅专栏

知识图谱

2 篇文章

订阅专栏

本文介绍了一种早期的Word Embedding方法，通过全球上下文和多词原型改进词表示，解决了一词多义的问题。论文由Huang等人于2012年发表在ACL会议上，该方法首先训练词向量，然后对特定词的上下文进行聚类，为每个意义创建不同的词向量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文阅读记录

本人以前是搞深度学习和图像相关的，由于种种原因和个人规划，开始转做自然语言处理和知识图谱相关的研究。由于有一定基础，所以对NLP内容理解起来也比较方便，目前已经补充和学习了一些知识，以后用本文记录一些我阅读的文献。

论文

Huang et al. ACL 2012, 多义词表示

Huang, Eric H , et al. “Improving word representations via global context and multiple word prototypes.” Meeting of the Association for Computational Linguistics: Long Papers Association for Computational Linguistics, 2012.

本文是较早用于解决word embedding一词多义的文章，也是比较基本的方法。思路：1. 先使用普通方法训练得到word vectors. 2. 给定词w和窗口大小L，在语料库中筛选出包含词w的所有句子（句子长度保留2L+1). 3. 对这些包含词w的句子聚类（k-means）成多个簇，然后把单词w按照簇分成好多种，w_1,w_2,…w_n. 4. 把原有语料库中的w替换成对应的w_i，看成不同的词. 4. 换下一个词w，重新进行2-4操作，直到所有词都细分完。5. 重新训练词向量。这样不同含义的词就有不同的词向量了，输入一个词时，先根据所在句子判断是哪个簇的，然后在使用对应的词向量。