【论文精读】(面向中文的词向量) 2018_基于中文形态学和语义关系的类比推理

【论文】2018_基于中文形态学和语义关系的类比推理 Analogical Reasoning on Chinese Morphological and Semantic Relations

开源地址: https://github.com/Embedding/Chinese-Word-Vectors

论文地址: Analogical Reasoning on Chinese Morphological and Semantic Relations - ACL Anthology

0 摘要

类比推理在捕捉语言规律方面是有效的。本文提出了一个关于汉语的类比推理任务。在深入挖掘汉语词汇知识后,我们勾勒出68个隐性形态关系和28个显性语义关系。然后为该任务构建了一个大型且平衡的数据集CA8,包括17813个问题。此外,我们系统地探讨了向量表示、上下文特征和语料对类比推理的影响。通过实验,CA8被证明是评估中文词向量的可靠基准。

1 引言

介绍中文语言特点与英语语言特点具有不同之处:

  • 英文为黏着语, 具有词根词缀; 而中文为孤立语, 没有词根词缀的概念(但存在”半词缀”现象, 将在后文中展开研究)
  • 中文中很多词语的语义关系与中国历史文化息息相关.

目前存在的问题:

  • 没有中文类比推理数据集, 现有唯一的数据集CA_translation 是从英文数据集中翻译来的(后文研究中进一步指出,这个数据集中只具有中文语义关系, 而不具有中文形态学关系)

研究贡献:

  • 发布一个中文类比推理数据集CA8, 具有更平衡的中文语言学特点.
  • 开源了36个中文预训练词向量

2 中文的形态学关系 Morphological Relations

2.1. 重叠关系(reduplication)

在这里插入图片描述

2.2. 半黏着关系(semi-affixation)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值