8、自动语音分割技术:原理、方法与应用

自动语音分割技术:原理、方法与应用

1. 引言

自动语音识别(ASR)技术的显著进步,使得我们能够探索将为文本设计的语言处理技术应用于口语的可能性。如今,大量信息以语音记录的形式存在,如新闻广播、脱口秀、会议等。虽然 ASR 可以将口语文件自动转录为文字流,但要获取感兴趣的内容,还需应用传统上为书面输入开发的语言处理技术。

与文本文件相比,大多数口语文件处理的一个挑战是缺乏明显的分割信息。文本输入通常包含标点符号,用于将单词分割成句子和句子以下的单位,还可通过格式将句子组织成更高层次的单位。而自动语音识别系统输出的只是未注释的文字流。人类听众可以轻松地对口语输入进行分割,他们会利用一系列线索,但并非所有线索都被完全理解。

自动分割虽然远不及人类的表现,但通过结合单词识别器的词汇信息、频谱和韵律线索,已经取得了显著进展。词汇序列信息有助于找到句子和从句的边界,但会受到单词识别错误的影响,且具有一定的领域特异性。频谱信息可提示说话者和节目变化以及非语音事件,韵律特征能提供多种类型的段边界信息。

以下是一个未格式化和格式化的语音转录示例:

未格式化的文字转录

with more american firepower being considered for the persian gulf defense secretary 
cohen to-day issued by far the administration’s toughest criticism of the u. n. security 
council without mentioning
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值