aspect term extraction——最近两篇结合依存树和CRF的文章

文章介绍了两种使用CRF解决aspect term提取的方法,将问题转化为序列标注。一种结合词向量和依存路径向量,通过无监督学习得到向量表示,特征包括词向量、线性上下文和依存上下文。另一种利用依存树构造递归结构,生成包含句法信息的词向量。两篇文章都在实验中验证了这些方法的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Unsupervised word and dependency path embeddings for aspect term extraction

Yin Yichun, 2016

本文解决的问题是aspect term提取问题,总的来说转换成了序列标注问题,应用CRF算法解决。

总结:本文将aspect term抽取问题看成序列标注问题,并采用CRF方法解决,在向CRF输入每个单词的特征时,不仅仅用词向量,还考虑更丰富的上下文信息,比如邻居单词的词向量,和上下文单词的依存关系信息。具体实现上,是通过无监督学习,得到词向量和依存路径的向量表示。在为每个单词选择特征时,不仅考虑其词向量,而且考虑线性上下文特征和依存上下文特征。以这些特征作为CRF的输入,进行序列标记。创新点在于训练依存路径的向量表示


1、词向量和依存路径向量的无监督学习

(注,本文不是学依存路径,而是学习依存关系,依存路径是通过利用循环神经网络对依存关系进行组合得到的,怎么能说学路径的表示呢?!)

取两个单词之间的最短依存路径,组成三元组。依存路径的向量是组合向量compositionality,文中采用循环神经网络得到路径向量。无监督学习的训练目标是让gold三元组的得分最高(负采样),这样经过对大量数据的学习,可以得到词向量和路径向量。当然,路径数随着跳数指数增长,文中只考虑跳数小于3的路径对应的三元组。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值