28、上下文在多词表达检测中的作用:非上下文与上下文方法对比

上下文在多词表达检测中的作用:非上下文与上下文方法对比

在自然语言处理领域,多词表达(MWE)的检测是一个重要的研究方向。MWE 是由多个单词组成的具有特定语义的语言单元,准确识别 MWE 对于理解文本的语义和结构至关重要。本文将探讨上下文在 MWE 检测中的作用,并对比非上下文和上下文两种方法。

1. 数据集

为了评估 MWE 检测方法,使用了 plWordNet 中标记为多词词汇单元的 MWE 作为正样本,同时使用语言学家多年来从 plWordNet 中移除的非词汇化多词词元作为负样本。由于双词 MWE 在数量上占优势,因此主要关注双词 MWE。比较了两种样本表示方法:非上下文和上下文。
- 非上下文表示 :基于 fastText skipgram 模型(在 KGR10 语料库上训练)构建,将 MWE 组件的嵌入与它们之间的差异向量连接起来。公式如下:
[embNC(w1, w2) = \overrightarrow{w1} \oplus \overrightarrow{w2} \oplus (\overrightarrow{w1} - \overrightarrow{w2})]
- 上下文表示 :从 KGR10 波兰语料库中提取了 687,900 个句子,其中 648,481 个句子包含正确 MWE 的组件,39,419 个句子包含错误 MWE 的组件。通过比较句子中的词元与 MWE 词元列表来检测 MWE 组件。上下文嵌入的生成公式如下:
[
\begin{align }
\overrightarrow{msent} &= \frac{\s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值