NLP驱动的基于集成的自动字幕生成和语义视频摘要技术
1. 引言
在当今大数据时代,视频摘要技术具有巨大的应用前景。像谷歌、Dailymotion、Vimeo等视频存储网站日益流行,每天都有大量视频被上传和下载。例如,YouTube有13亿用户,每分钟上传300小时的视频,每天观看量近50亿次,日访问量超过3000万。在这样的背景下,视频摘要技术可以应用于视频缩略图以吸引更多观众,还能只展示视频中有趣和重要的部分。
然而,并非所有视频都配有字幕,像监控录像等视频即使应用语音识别也难以获得字幕,这限制了视频摘要的应用范围。不过,利用字幕进行视频摘要仍然是最有效和快速的方法。与使用机器学习算法或基于直方图的方法相比,处理字幕(文本形式)更加容易和快捷。但大多数视频没有字幕,因此可以通过语音识别技术将视频音频转换为文本并生成字幕。获取字幕后,就可以使用自然语言处理(NLP)算法对字幕进行摘要处理。
2. 提出的模型
为了使用字幕对视频进行摘要,该方法使用了五种基于NLP的文本摘要算法,并采用了集成技术。
- NLP-based字幕生成
- 字幕生成过程 :如果视频没有字幕,可以使用WIT.AI的语音识别API生成字幕。具体步骤如下:
1. 从视频文件中提取音频。
2. 为每个字幕设置最大时间间隔(如6秒)。
3. 扫描音频以检测静音,若静音出现在6秒之前,则在该点切断音频,并定义一个阈值来区分静音和非静音部分。
4. 在音频的开始和结束处各添加1秒的额外静音,以确保语音识别器不会遗漏单词。
5. 每次识别特定音频块中的
超级会员免费看
订阅专栏 解锁全文
7462

被折叠的 条评论
为什么被折叠?



