58、自然语言处理与文档聚类的研究与实践

自然语言处理与文档聚类的研究与实践

在自然语言处理和文档聚类领域,有两项重要的研究成果值得关注,一项是模拟浅层依赖解析器的研究,另一项是基于子图划分的 K - 均值文档聚类中心优化选择方法。

模拟浅层依赖解析器

在模拟浅层依赖解析的实验中,研究人员将总数据随机分为训练集(9000 条)和测试集(1000 条)。实验任务是为中文句子分配带标签的依赖边,每个句子表示为一系列标记加词性(POS),解析器需为每个标记输出其头节点和相应的依赖关系。

为了评估解析器,定义了以下指标(特别地,评分时排除标点符号):
- LAS(标记附着分数) :分配了正确头节点和正确依赖关系标签的“计分”标记的比例。
- UAS(未标记附着分数) :分配了正确头节点的“计分”标记的比例(不考虑依赖关系标签)。
- LS(标记附着分数) :分配了正确依赖关系标签的“计分”标记的比例(不考虑头节点)。
- LAS - n(高度为 n 的标记附着分数) :标记的高度是从依赖树的虚拟节点“Root”到自身经过的边的数量。LAS - n 是依赖树中高度为 n 的“计分”标记中,分配了正确头节点和正确依赖关系标签的比例。在本次实验中,依赖结构分为 5 个分区:LAS - 1、LAS - 2、LAS - 3、LAS - 4 和 LAS - 5 + 。

研究人员提出了一种多类感知器算法的变体(VMPA)用于模拟浅层依赖解析。为验证其有效性,使用 VMPA 和原始多类感知器算法(MPA)从 9000 条训练数据集中构建

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值