94、计算语篇分析:从分割到连贯

计算语篇分析:从分割到连贯

在自然语言处理领域,语篇分析是一个重要的研究方向,它涵盖了语篇分割和语篇连贯等多个关键方面。本文将深入探讨语篇分割的评估方法以及语篇连贯的相关理论和自动分配方法。

语篇分割与评估

语篇分割是分析语篇结构的基础步骤。在这个过程中,话语标记起着关键作用。话语标记往往具有很强的领域特异性,不同领域可能有不同的标记特征。

  • 话语标记 :在广播新闻分割中,“joining us now is ⟨PERSON⟩”这样的短语常出现在特定片段的开头;而“coming up”则常出现在片段结尾。对于《华尔街日报》的新闻文章分割,“incorporated”这个词是一个有用的特征,因为该报文章常以公司全称“XYZ Incorporated”开头,后续则只用简称“XYZ”。在房地产广告分割任务中,会使用诸如“后续单词是否为社区名称”“前一个单词是否为电话号码”以及“后续单词是否大写”等特征。
  • 识别方法 :可以通过手写规则或正则表达式来识别特定领域的话语标记,这些规则通常会涉及命名实体,因此需要先运行命名实体标注器。也有自动方法,先将所有可能的单词或短语编码为分类器的特征,然后在训练集上进行特征选择,找出最能指示边界的单词。

语篇分割的评估通常是在人工标注边界的测试集上运行算法,通过比较自动标注和人工标注的边界来计算算法性能。常用的评估指标有WindowDiff和Pk,而不使用精确率、召回率和F值,因为它们对接近正确边界的情况不敏感。

  • WindowDiff算法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值