自动语音分割技术:原理、方法与应用
1. 引言
自动语音识别(ASR)技术的显著进步,使得我们能够探索将为文本设计的语言处理技术应用于口语的可能性。如今,大量信息以语音记录的形式存在,如新闻广播、脱口秀、会议等。虽然 ASR 可以将口语文件自动转录为文字流,但要获取感兴趣的内容,还需应用传统上为书面输入开发的语言处理技术。
与文本文件相比,大多数口语文件处理的一个挑战是缺乏明显的分割信息。文本输入通常包含标点符号,用于将单词分割成句子和句子以下的单位,还可通过格式将句子组织成更高层次的单位。而自动语音识别系统输出的只是未注释的文字流。人类听众可以轻松地对口语输入进行分割,他们会利用一系列线索,但并非所有线索都被完全理解。
自动分割虽然远不及人类的表现,但通过结合单词识别器的词汇信息、频谱和韵律线索,已经取得了显著进展。词汇序列信息有助于找到句子和从句的边界,但会受到单词识别错误的影响,且具有一定的领域特异性。频谱信息可提示说话者和节目变化以及非语音事件,韵律特征能提供多种类型的段边界信息。
以下是一个未格式化和格式化的语音转录示例:
未格式化的文字转录
with more american firepower being considered for the persian gulf defense secretary
cohen to-day issued by far the administration’s toughest criticism of the u. n. security
council without mentioning
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



