开发开源 Firefox 浏览器的非营利组织 Mozilla 宣布,其所推动地最大语音数据收集计划——Common Voice** 平台已正式支持汉语普通话。**在广大的 Mozilla 社群及语言专家伙伴的辛勤努力下,从现在开始,网友可到 Common Voice 的简体中文网站(https://voice.mozilla.org/zh-CN)录制音频。
● Mozilla 开始收集大陆地区汉语语音数据,更进一步充实其公开语音数据集
● 现已收集 27 种不同语言的语音文件,并将再扩大支持 72 种语言
● Common Voice 是史上最大的开源语音转录文字数据集,其最新发布的数据库包括来自超过 4.2 万贡献者的 18 种语言录制的语音文件,总长近 1,400 小时
语音接口是互联网未来的大势所趋。车载语音助理、智能手表、智能灯泡等等……内建语音识别技术的设备可谓与日俱增。然而,相关技术的创新仍面临着重大阻碍:有意打造语音辅助方案的创新公司、研究人员或各种开发者都需取得大量转录为文字的语音数据,才能训练机器学习的算法。但现有公开语音数据集的语音数据量与支持语种数都极其有限,而私有的语音数据不但仅掌握在少数几家公司手中,其费用还很高。
因此,Mozilla 自 2017 年 6 月起展开