IBM利用声学神经网络模型为新闻播报内容生成字幕

最新推荐文章于 2025-09-07 19:29:44 发布

weixin_33923148

最新推荐文章于 2025-09-07 19:29:44 发布

阅读量125

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能

原文链接：https://juejin.im/post/5cdbc7c46fb9a0322e73b535

IBMResearch利用LSTM网络和声学神经网络模型，结合语言模型自动为新闻广播生成字幕，错误率分别达到6.5%和5.9%，接近人类水平。此技术需处理复杂语音内容，包括多重背景噪音和广泛新闻主题。

IBM Research发布了一项研究，使用长期和短期记忆（LSTM）网络和声学神经网络模型，辅助语言模型自动生成新闻广播的字幕，研究团队与语音和搜索技术Appen合作公司在澳大利亚，两个在测试实验中，语音识别系统的错误率分别为6.5％和5.9％，而人类识别的错误率分别为3.6％和2.8％。

IBM指出，在会话电话领域，语音识别系统必须处理失真，来自多个不同电话频道的随机录音，以及各种语音风格，会话语音将有多个对话者重叠，中断，重启和重复确认声音。

新闻广播的语音识别任务更具挑战性，因为它还需要处理多人语音风格，多重背景噪音，以及广泛的新闻内容，甚至是各种主题的混合，如现场采访，电视节目剪辑。内容等

为了成功识别复杂的语音内容并为新闻广播内容生成字幕，IBMfun88淘搜网研究团队通过语音识别技术建立了一个深度神经网络，该技术集成了长期和短期内存网络以及深度剩余网络（Residual network，ResNet），基于ResNet，是一个深度卷积网络，最多有25层卷积层。它使用1,300小时的不同新闻内容材料来训练模型以生成字幕。

转载于:https://juejin.im/post/5cdbc7c46fb9a0322e73b535

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。