IBM Research发布了一项研究,使用长期和短期记忆(LSTM)网络和声学神经网络模型,辅助语言模型自动生成新闻广播的字幕,研究团队与语音和搜索技术Appen合作公司在澳大利亚,两个在测试实验中,语音识别系统的错误率分别为6.5%和5.9%,而人类识别的错误率分别为3.6%和2.8%。
新闻广播的语音识别任务更具挑战性,因为它还需要处理多人语音风格,多重背景噪音,以及广泛的新闻内容,甚至是各种主题的混合,如现场采访,电视节目剪辑。内容等
为了成功识别复杂的语音内容并为新闻广播内容生成字幕,IBMfun88淘搜网研究团队通过语音识别技术建立了一个深度神经网络,该技术集成了长期和短期内存网络以及深度剩余网络(Residual network,ResNet),基于ResNet,是一个深度卷积网络,最多有25层卷积层。它使用1,300小时的不同新闻内容材料来训练模型以生成字幕。