12月9日晚,NCMMSC-CNVSRC 2023 学术研讨会在苏州召开的第十八届全国人机语音通讯学术会议(NCMMSC 2023)举办,会上公布了本次视觉语音识别竞赛 CNVSRC 2023 的获奖名次,在现场清华大学及各获奖团队进行精彩分享。

本次竞赛由 NCMMSC 2023组委会发起,由清华大学、北京邮电大学、海天瑞声、语音之家联合主办。竞赛的核心目的是验证当前视觉语音识别(或称唇语识别)技术在大词表连续识别场景下的性能。
本次竞赛共吸引了85支海内外队伍参赛。历经近三个月的角逐,来自西工大ASLP-理想汽车、内蒙古大学、红西瓜半导体、成者科技、北京邮电大学、同花顺等单位的参赛队伍获得佳绩。详细赛事结果及报告视频将公布在竞赛官网,敬请关注:CN-Celeb
| T1 Single-speaker VSR - Fixed Track 赛道 | |
| 1 | T237 西工大ASLP-理想汽车 NPU-ASLP-LiAuto |
| 2 | T266 红西瓜半导体 GUA Speech |
| 3 | T290 成者科技 CZUR |
| 4 | T238 北京邮电大学 VII |
| 5 | T267 同花顺语音组 RoyalFlush |
| T1 Single-speaker VSR - Open Track 赛道 | |
| 1 | T237 西工大ASLP-理想汽车 NPU-ASLP-LiAuto |
| T2 Multi-speaker VSR - Fixed Track 赛道 | |
| 1 | T244 内蒙古大学 DayDayUp |
| 2 | T267 同花顺语音组 RoyalFlush |
| T2 Multi-speaker VSR - Open Track 赛道 | |
| 1 | T237 西工大ASLP-理想汽车 NPU-ASLP-LiAuto |
| 2 | T244 内蒙古大学 DayDayUp |
研讨会中,清华大学王东老师主持技术交流会,海天瑞声副总经理、COO李科开场致辞并和语音之家创始人&CEO卜辉共同为2个赛道的获奖队伍颁奖,清华大学陈琛同学分享了基线系统与技术报告。

清华大学王东老师主持技术交流会

海天瑞声副总经理、COO李科开场致辞并主持颁奖

语音之家创始人&CEO卜辉主持颁奖

清华大学陈琛同学分享基线系统与技术报告

西工大ASLP-理想汽车、内蒙古大学、红西瓜半导体、北京邮电大学 团队代表领奖

西工大ASLP-理想汽车团队代表分享

红西瓜半导体团队代表分享

北京邮电大学团队代表分享

同花顺团队代表线上分享

参会人员合影

CNVSRC 2023 组委会成员和其他工作人员
视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了CN-CVS数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别(LVCVSR)提供了可能。关于CN-CVS数据集的更多信息,可访问数据库官网 http://cnceleb.org。
本次竞赛中CNVSRC-Multi数据集的朗读数据,是海天瑞声赠与清华大学的【中文普通话音视频识别库(手机)】数据集。海天瑞声向清华大学赠与数据集,以促进科学事业发展。
本次竞赛中许多参赛队伍在唇语识别任务上实现了系统性能的显著提升,其中最佳成绩相较于基线系统实现了超过20%的相对性能提升。参赛者们在唇语识别系统的各个组成部分中都提出了令人耳目一新的创新方案,为进一步推进中文大词表连续视觉语音识别的研究提供了新思路、新方法。
[1] C. Chen, D. Wang, T.F. Zheng, CN-CVS: A Mandarin Audio-Visual Dataset for Large Vocabulary Continuous Visual to Speech Synthesis, ICASSP, 2023.
NCMMSC-CNVSRC2023学术研讨会中,清华大学主导的视觉语音识别竞赛揭晓获奖名单,参赛队伍展示了显著性能提升,尤其是中文大词表连续识别技术取得新进展,清华大学发布的CN-CVS数据集推动了研究。
1055

被折叠的 条评论
为什么被折叠?



