72、基于时空模板和支持向量机的唇读技术

最新推荐文章于 2025-10-29 15:05:18 发布

原创最新推荐文章于 2025-10-29 15:05:18 发布 · 21 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#唇读技术 # 时空模板 # 支持向量机

探索《模式识别与图像分析》的前沿进展专栏收录该内容

92 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于时空模板和支持向量机的唇读技术

在当今科技发展的浪潮中，语音识别技术为人们与计算机的交互带来了极大的便利。然而，传统的音频语音识别在低信号强度或高环境噪音的情况下，性能会大打折扣。为了解决这一问题，一种基于视频数据的唇读技术应运而生，它不受音频噪音和声学条件变化的影响，甚至无需用户发出声音，具有广阔的应用前景。

1. 唇读技术概述

语音识别技术为用户通过语音控制计算机提供了灵活自然的方式，但音频语音识别器在声音信号强度低或环境噪音大时性能会下降。因此，利用与嘴巴运动相关的视频数据进行唇读成为了研究的方向。唇读系统具有以下优点：
- 不受音频噪音影响；
- 不受声学条件变化的影响；
- 无需用户发声。

视觉特征大致可分为基于形状、基于像素和动态特征。早期的唇读系统使用基于形状的特征，如嘴巴的高度和宽度，但使用人工标记提取唇轮廓不适用于实际的语音控制应用。基于像素的唇读系统则假设嘴巴周围的像素值包含重要的语音信息。

2. 基于时空模板（STT）的唇读技术

本文提出了一种使用时空模板（STT）的唇读技术。STT是通过对视频数据进行时间整合，并为最近的运动赋予更大的权重而创建的。最终的STT是一个二维灰度图像，适合表示短时间的面部运动。

该技术将相机安装在常见耳机上代替麦克风，这样不仅能获得比全脸视频更好的效果，还无需识别感兴趣区域，减少了计算量。整个视觉语音识别技术分为四个阶段：
1. 运动分割
2. 特征提取和降维
3. 分类

3. 运动分割

在每个视频中，嘴巴的运动用二维灰度图像——时空模板（STT）来表示。ST

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。