14、比较书面文本和转录音频中的命名实体识别

最新推荐文章于 2025-09-24 15:55:34 发布

nft7creator

最新推荐文章于 2025-09-24 15:55:34 发布

阅读量42

点赞数

CC 4.0 BY-SA版权

分类专栏：意大利语自然语言处理的新里程碑文章标签：命名实体识别 NER 自动语音识别

本文链接：https://blog.youkuaiyun.com/nft7creator/article/details/149278891

意大利语自然语言处理的新里程碑专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

比较书面文本和转录音频中的命名实体识别

1. 命名实体识别的任务描述

命名实体识别（NER）是自然语言处理（NLP）中的一个重要任务，旨在自动识别文本中的人名、地名、组织名等命名实体，并对其进行分类。NER在信息检索、信息提取、问答系统等多个领域中发挥着重要作用。为了实现这一目标，NER系统通常需要依赖于训练数据和特定的算法模型。然而，当处理自动转录音频时，NER任务变得更加复杂和具有挑战性。

2. 自动语音识别（ASR）的输出问题

自动语音识别（ASR）系统的输出通常包含转录错误，尤其是在处理词汇外单词（OOV）时。OOV是指在ASR系统的词汇表中不存在的单词，这些单词通常是专有名词，如人名、地名和组织名。由于这些单词在训练数据中出现频率较低，ASR系统在识别它们时容易出错。例如，在转录音频中，专有名词“il contropiede”可能会被错误地转录为“Bill Condon”。

此外，ASR输出的文本通常缺乏标点符号和正字法信息，这对NER系统构成了额外的挑战。例如，专有名词的首字母大写信息在转录音频中通常被忽略，这使得NER系统难以区分专有名词和普通名词。因此，如何在转录音频中有效识别命名实体成为了一个亟待解决的问题。

3. 实验设置

为了比较书面文本和转录音频中的命名实体识别性能，我们进行了多项实验。实验使用了意大利语的Evalita-2011命名实体识别数据集，该数据集包括20条广播新闻，总传输时间为十小时。其中五小时用于训练，另外五小时用于评估。该语料库首先由人工转录，然后由三位专家注释器手动标注NEs。此外，相同的广播新闻还由一个最新水平的自动语音识别系统自动转录，并恢复了大小写。

会员秒杀 ¥9.9 重磅福利

超级会员免费看