中文读唇总动员：CNVSRC 2024 中文连续视觉语音识别挑战赛 Leaderboard 开放

最新推荐文章于 2025-12-19 16:49:58 发布

原创

最新推荐文章于 2025-12-19 16:49:58 发布 · 1.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能

CNVSRC 2024 (Chinese Continuous Visual Speech Recognition Challenge 2024) 是由 NCMMSC 2024 组委会发起，由清华大学、北京邮电大学、海天瑞声、语音之家联合承办的第二届视觉语音识别竞赛。本次竞赛的核心目的是验证当前视觉语音识别 (或称唇语识别) 技术在大词表连续识别场景下的性能。即日起，CNVSRC 2024 组织者开放了提交系统和Leaderboard，竞赛正式进入实测阶段。

视觉语音识别

视觉语音识别，也称唇语识别，是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前，唇语识别的研究方兴未艾，虽然在独立词、短语等识别上取得了长足进展，但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言，由于缺乏相应的数据资源，该领域的研究进展受到了限制。为此，清华大学在2023年发布了 CN-CVS 数据集[1]，成为首个大规模的中文视觉语音识别数据库，为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。关于 CN-CVS 数据集的更多信息，可访问数据库官网 http://cnceleb.org 。

为推动这一研究方向的发展，清华大学联合北京邮电大学、海天瑞声和语音之家将在 NCMMSC 2024 举办第二届中文连续视觉语音识别挑战赛 (CNVSRC 2024, Chinese Continuous Visual Speech Recognition Challenge)</