比较书面文本和转录音频中的命名实体识别
1. 命名实体识别的任务描述
命名实体识别(NER)是自然语言处理(NLP)中的一个重要任务,旨在自动识别文本中的人名、地名、组织名等命名实体,并对其进行分类。NER在信息检索、信息提取、问答系统等多个领域中发挥着重要作用。为了实现这一目标,NER系统通常需要依赖于训练数据和特定的算法模型。然而,当处理自动转录音频时,NER任务变得更加复杂和具有挑战性。
2. 自动语音识别(ASR)的输出问题
自动语音识别(ASR)系统的输出通常包含转录错误,尤其是在处理词汇外单词(OOV)时。OOV是指在ASR系统的词汇表中不存在的单词,这些单词通常是专有名词,如人名、地名和组织名。由于这些单词在训练数据中出现频率较低,ASR系统在识别它们时容易出错。例如,在转录音频中,专有名词“il contropiede”可能会被错误地转录为“Bill Condon”。
此外,ASR输出的文本通常缺乏标点符号和正字法信息,这对NER系统构成了额外的挑战。例如,专有名词的首字母大写信息在转录音频中通常被忽略,这使得NER系统难以区分专有名词和普通名词。因此,如何在转录音频中有效识别命名实体成为了一个亟待解决的问题。
3. 实验设置
为了比较书面文本和转录音频中的命名实体识别性能,我们进行了多项实验。实验使用了意大利语的Evalita-2011命名实体识别数据集,该数据集包括20条广播新闻,总传输时间为十小时。其中五小时用于训练,另外五小时用于评估。该语料库首先由人工转录,然后由三位专家注释器手动标注NEs。此外,相同的广播新闻还由一个最新水平的自动语音识别系统自动转录,并恢复了大小写。
<
超级会员免费看
订阅专栏 解锁全文
2619

被折叠的 条评论
为什么被折叠?



