搜狗发布新研究：语音+唇语让语音识别更准确

最新推荐文章于 2025-06-07 17:03:47 发布

量子位

最新推荐文章于 2025-06-07 17:03:47 发布

阅读量922

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/yH0VLDe8VG8ep9VGe/article/details/90307506

搜狗与清华天工研究院合作，发表在ICASSP会议上的研究表明，结合语音和唇语的多模态识别技术能显著提高语音识别准确率，尤其是在嘈杂环境下。通过“基于注意力的编码器解码器”框架，模型能够自动融合不同模态的信息，根据环境调整语音和视觉的贡献比例，从而实现更准确的识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

晓查发自凹非寺
量子位出品 | 公众号 QbitAI

未来的人类如何与机器人交流？我们既需要机器人模仿人类的语气、表情、动作，同样也需要机器人能理解我们。

搜狗AI正在朝着这一步迈进：由人类说一段话，AI根据唇形和语音准确识别内容。最近搜狗与清华天工研究院合作，在语音和唇语的多模态识别方面取得了重大成果。

相关论文《基于模态注意力的端到端音视觉语音识别》已经发表在今年的学术会议ICASSP上。

ICASSP是全世界最大的，也是最全面的信号处理及其应用方面的顶级会议，是IEEE的一个重要的年度会议，对于信号处理方面的学术人士有着重要意义。

5月12日至17日，在英国布莱顿举办的学术会议上，搜狗的研究人员汇报了他们的研究成果，显示了搜狗在语音识别、多模态识别领域的技术领先性和原创实力。

640?wx_fmt=png

语音+唇语识别

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

量子位

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

AIGC 与 Whisper：提升语音识别的准确率

AI天才研究院

05-21

755

语音识别技术是人机交互的核心基础设施，广泛应用于智能音箱、语音助手、会议记录等场景。然而，复杂环境噪声、方言口音差异、多语言混合等问题导致传统模型准确率瓶颈明显。OpenAI Whisper作为当前最先进的语音识别模型之一，在多语言支持和鲁棒性上表现优异，但仍有优化空间。本文聚焦AIGC技术（如生成式对抗网络、大语言模型）与Whisper的融合，从数据增强模型架构优化后处理纠错三个维度，阐述提升语音识别准确率的完整技术体系，涵盖原理分析、算法实现和工程实践。

语音识别开源项目推荐：GitHub热门仓库盘点

最新发布

AGI×大数据，开启智能时代的认知跃迁；解码AGI，赋能数据驱动的智能革命。

07-09

930

想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（Automatic Speech Recognition, ASR）技术正在改变我们与机器的交互方式。如今，随着开源项目的爆发，ASR不再是大厂的专利，开发者、学生甚至普通用户都能借助这些工具快速实现自己的语音应用。本文将为你盘点2024年GitHub上最热门的5个语音识别开源项目，从核心原理到实战代码，从应用场景到优化技巧，帮你理清ASR的技术脉络，找到适合自己的工具。

参与评论您还未登录，请先登录后发表或查看评论

易语言百度语音识别API例程

11-10

易语言做精准识别语音，通过百度语音识别API实现精准识别。代码有大量标注易看易懂。

搜狗发布新研究：语音＋唇语让语音识别更准确

weixin_30576859的博客

05-18

282

　　未来的人类如何与机器人交流?我们既需要机器人模仿人类的语气、表情、动作，同样也需要机器人能理解我们。　　搜狗AI正在朝着这一步迈进：由人类说一段话，AI根据唇形和语音准确识别内容。最近搜狗与清华天工研究院合作，在语音和唇语的多模态识别方面取得了重大成果。　　相关论文《基于模态注意力的端到端音视觉语音识别》已经发表在今年的学术会议ICASSP上。　　ICASSP是全世界最大的，也是最...

基于LRW-1000（CAS-VSR-W1k）数据集来进行中文唇语数据集识别任务中文唇语识别数据集。唇语识别数据。公开唇语识别数据。

QQ67658008的博客

06-07

2024

中文唇语识别系统构建摘要：基于LRW-1000（CAS-VSR-W1k）数据集开发中文唇语识别系统，该数据集是目前最大的公开中文唇语数据集，可用于数字人和Wav2Lip等应用。系统实现包含数据预处理、模型训练和评估全流程。采用AV-Sync模型架构，通过视频帧提取和音频特征处理实现多模态识别。代码提供完整的数据加载、模型定义及训练配置，支持GPU加速。环境需Python 3.8+和PyTorch等基础库，数据集包含1,000个词语类别，组织为视频和转录文本的标准化结构。系统可扩展用于实际场景的唇语识别应用。

AI展现唇语识别能力，大数据功不可没

haisendashuju的博客

04-06

660

人类对唇语的学习和研究由来已久，然而由于受经验、视线以及主观因素的影响，人类解读唇语的正确率存在不稳定性。因此让AI学会“读唇术”，在很多应用场景都有着现实意义。读唇是一种特别难的技能，人们在读唇的时候会尽可能多地根据话语间的联系来判断，读唇人本身的语言知识也至关重要。AI“读唇术”简单来讲就是一项唇语识别技术，计算机通过进行视觉识别和自然语言处理，来分析说话人的唇部运动，从而识别出说话内容。牛津大学计算机系开发出了一个名为LipNet 的人工智能系统。据报道，这个人工智能的系统是建立在一个被称

Yolov5+Resnet+Flask实现唇语识别系统

qq_44878920的博客

09-14

1万+

唇读系统，一个不用听就能”看到“你说话的内容的智能系统

史上最详细唇语识别数据集综述

热门推荐

想到好名再改的博客

09-01

2万+

唇语识别数据集综述

AIGC 新宠：Whisper 语音识别技术全解析

AI 领航者的博客

04-27

732

随着人工智能在音频处理领域的快速发展，语音识别技术（Automatic Speech Recognition, ASR）成为人机交互、内容生成（AIGC）的核心基础设施。OpenAI于2022年推出的Whisper模型，凭借其卓越的多语言支持能力、端到端处理架构和开源特性，迅速成为行业新宠。解析Whisper的技术原理与架构设计演示核心算法的数学模型与代码实现提供从环境搭建到项目实战的完整指南探讨Whisper在实际场景中的应用与挑战背景介绍与术语定义核心概念解析（架构、原理、技术优势）

语音识别API对比：Google、Azure、AWS哪家强？

AI智能探索者的博客

04-12

1496

随着智能客服、语音助手、多媒体内容分析等场景的普及，语音识别（ASR, Automatic Speech Recognition）成为企业数字化转型的核心技术之一。

python基于深度学习的唇语识别系统的设计与实现

2301_79810943的博客

09-22

1625

针对web端操作下的唇语识别，本文主要是使用了两大主流深度学习算法部署到Flask框架的集成思想，对如下内容进行了研究应用：（1）Yolov5算法对人脸进行唇部定位，采用预测的坐标对数据集进行处理，整理得到图像内容仅包含有效信息的数据集；（2）设计3DResnet和GRU复合网络，利用2D的残差模块组成深度网进行提取特征，最后利用GRU将每个帧数映射到特征维度中，形成批次和时序的高维度信息，再进行全连接层和softmax层；

唇语识别系统使用机器视觉技术源码lip-reading-deeplearning-master

04-17

唇语识别系统使用机器视觉技术，从图像中连续识别出人脸，判断其中正在说话的人，提取此人连续的口型变化特征，随即将连续变化的特征输入到唇语识别模型中，识别出讲话人口型对应的发音，随后根据识别出的发音，计算出可能性最大的自然语言语句。

lip_唇语识别_Eclipse_

10-02

唇语识别数据

面向唇语识别的数据采集系统

m0_38100634的博客

06-21

4179

本文主要是分享一下自己在探索设计实现一个面向中文唇语识别数据采集系统的经验。主要有两步工作，一是配置系统环境，二是系统设计与编程实现。 1.对于环境系统配置，主要包括格式工厂、爱剪辑软件的安装，VS2013、OpenCv、JSONCPP、Dlib的配置安装。 2.对于系统的编程实现，包括语音转写接口调用Java编程、JSON文件解析、视频唇语序列按...

唇语识别概念杂记

张荣

05-22

3148

##1.认知唇语识别系统使用机器视觉技术，从图像中连续识别出人脸，判断其中正在说话的人，提取此人连续的口型变化特征，随即将连续变化的特征输入到唇语识别模型中，识别出讲话人口型对应的发音，随后根据识别出的发音，计算出可能性最大的自然语言语句。 ##2.相关信息 2003Intel，Audio Visual Speech Recognition（AVSR） 2016，...

学习笔记

yunxinan的专栏

11-05

339

Tensorflow学习资源汇总 1)适合初学者的Tensorflow教程和代码示例： https://github.com/aymericdamien/TensorFlow-Examples 2)从Tensorflow基础知识到有趣的项目应用: https://github.com/pkmital/tensorflow_tutorials 3)使用Jupyter Notebook运行的Tenso...

语音识别技术如何突围？搜狗走了一条音视觉结合之路

q6q6q的专栏

10-27

276

看点：多模态识别再获进步，搜狗联合清华将音视觉融合，提升语音识别的效果，论文已被ICASSP2019收录。有一个像科幻电影《Her》中的虚拟助理（女友），大概是人们对人工智能美好的憧憬，尽管这一天可能还很遥远。为了实现这一技术突破，前几年行业更多聚焦语音交互各个难题，而近两年，一些技术先行者开始尝试将语音、视觉、文本等信息结合的方式（即多模态）来推动人机交互技术的升级，多模态交互也成为学界、业界热...

搜狗语音云开发入门（二）——使用离线语音识别服务

干勾鱼的优快云博客

07-10

1万+

你不是用户的亲戚朋友同学战友，不是武藤苍井上原结衣小子玛利亚，不是黎明郭富城刘德华梁朝伟，也不是王朔海岩郭敬明韩寒，这些你统统不是。但你做的应用还是能让人喜欢用，赶都赶不走，那就是能力。不好意思扯远了。

深度学习驱动的土耳其唇语识别：最新Bi-LSTM模型研究

值得注意的是，句子识别的准确率通常高于单词识别，这可能是因为句子级别的信息包含更多的上下文和语言结构，有助于深度学习模型更好地理解唇语表达的含义。此外，本文的工作还引用了McGurk和McDonald的经典实验，...

搜狗发布新研究：语音+唇语让语音识别更准确

晓查 发自 凹非寺量子位 出品 | 公众号 QbitAI

语音+唇语识别

晓查发自凹非寺
量子位出品 | 公众号 QbitAI