【论文】2018_基于中文形态学和语义关系的类比推理 Analogical Reasoning on Chinese Morphological and Semantic Relations
开源地址: https://github.com/Embedding/Chinese-Word-Vectors
论文地址: Analogical Reasoning on Chinese Morphological and Semantic Relations - ACL Anthology
文章目录
0 摘要
类比推理在捕捉语言规律方面是有效的。本文提出了一个关于汉语的类比推理任务。在深入挖掘汉语词汇知识后,我们勾勒出68个隐性形态关系和28个显性语义关系。然后为该任务构建了一个大型且平衡的数据集CA8,包括17813个问题。此外,我们系统地探讨了向量表示、上下文特征和语料对类比推理的影响。通过实验,CA8被证明是评估中文词向量的可靠基准。
1 引言
介绍中文语言特点与英语语言特点具有不同之处:
- 英文为黏着语, 具有词根词缀; 而中文为孤立语, 没有词根词缀的概念(但存在”半词缀”现象, 将在后文中展开研究)
- 中文中很多词语的语义关系与中国历史文化息息相关.
目前存在的问题:
- 没有中文类比推理数据集, 现有唯一的数据集CA_translation 是从英文数据集中翻译来的(后文研究中进一步指出,这个数据集中只具有中文语义关系, 而不具有中文形态学关系)
研究贡献:
- 发布一个中文类比推理数据集CA8, 具有更平衡的中文语言学特点.
- 开源了36个中文预训练词向量