IBM利用声学神经网络模型 为新闻播报内容生成字幕

IBMResearch利用LSTM网络和声学神经网络模型,结合语言模型自动为新闻广播生成字幕,错误率分别达到6.5%和5.9%,接近人类水平。此技术需处理复杂语音内容,包括多重背景噪音和广泛新闻主题。

IBM Research发布了一项研究,使用长期和短期记忆(LSTM)网络和声学神经网络模型,辅助语言模型自动生成新闻广播的字幕,研究团队与语音和搜索技术Appen合作公司在澳大利亚,两个在测试实验中,语音识别系统的错误率分别为6.5%和5.9%,而人类识别的错误率分别为3.6%和2.8%。

IBM指出,在会话电话领域,语音识别系统必须处理失真,来自多个不同电话频道的随机录音,以及各种语音风格,会话语音将有多个对话者重叠,中断,重启和重复确认声音。

新闻广播的语音识别任务更具挑战性,因为它还需要处理多人语音风格,多重背景噪音,以及广泛的新闻内容,甚至是各种主题的混合,如现场采访,电视节目剪辑。内容等

为了成功识别复杂的语音内容并为新闻广播内容生成字幕,IBMfun88淘搜网研究团队通过语音识别技术建立了一个深度神经网络,该技术集成了长期和短期内存网络以及深度剩余网络(Residual network,ResNet),基于ResNet,是一个深度卷积网络,最多有25层卷积层。它使用1,300小时的不同新闻内容材料来训练模型以生成字幕。

转载于:https://juejin.im/post/5cdbc7c46fb9a0322e73b535

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值