自然语言处理与文档聚类的研究与实践
在自然语言处理和文档聚类领域,有两项重要的研究成果值得关注,一项是模拟浅层依赖解析器的研究,另一项是基于子图划分的 K - 均值文档聚类中心优化选择方法。
模拟浅层依赖解析器
在模拟浅层依赖解析的实验中,研究人员将总数据随机分为训练集(9000 条)和测试集(1000 条)。实验任务是为中文句子分配带标签的依赖边,每个句子表示为一系列标记加词性(POS),解析器需为每个标记输出其头节点和相应的依赖关系。
为了评估解析器,定义了以下指标(特别地,评分时排除标点符号):
- LAS(标记附着分数) :分配了正确头节点和正确依赖关系标签的“计分”标记的比例。
- UAS(未标记附着分数) :分配了正确头节点的“计分”标记的比例(不考虑依赖关系标签)。
- LS(标记附着分数) :分配了正确依赖关系标签的“计分”标记的比例(不考虑头节点)。
- LAS - n(高度为 n 的标记附着分数) :标记的高度是从依赖树的虚拟节点“Root”到自身经过的边的数量。LAS - n 是依赖树中高度为 n 的“计分”标记中,分配了正确头节点和正确依赖关系标签的比例。在本次实验中,依赖结构分为 5 个分区:LAS - 1、LAS - 2、LAS - 3、LAS - 4 和 LAS - 5 + 。
研究人员提出了一种多类感知器算法的变体(VMPA)用于模拟浅层依赖解析。为验证其有效性,使用 VMPA 和原始多类感知器算法(MPA)从 9000 条训练数据集中构建
超级会员免费看
订阅专栏 解锁全文

30

被折叠的 条评论
为什么被折叠?



