识别1600+种人类语言，支持少样本扩展到5400+种语言，Meta自动语音识别模型开源

最新推荐文章于 2025-11-24 20:15:00 发布

原创最新推荐文章于 2025-11-24 20:15:00 发布 · 782 阅读

·

15

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语音识别 #人工智能

Meta AI发布了名为Omnilingual ASR（自动语音识别），它能转录超过1600种人类语言。

这其中，有500多种语言是历史上第一次被人工智能系统所理解和记录。

语言，是文化的载体，也是沟通的桥梁。

但在数字世界里，这座桥梁长期以来只为少数强势语言而架设。

全球七千多种语言中，只有极少数能够被计算机处理，绝大多数语言和其背后的文化，都沉默在技术的阴影之下。

自动语音识别（ASR）技术，这个旨在将声音转化为文字的工具，本应打破这种沉默，却因其对海量标注数据的依赖，反而加固了这道鸿沟。

近些年，多语言ASR的探索开始出现曙光。

Facebook的wav2vec 2.0利用自监督学习，让模型能从无标签的音频中自学语音的奥秘。

Google的USM（通用语音模型）更是将支持的语言数量推向了100种以上，一度成为该领域的标杆。

但这些系统，依然没能解决根本问题。

它们的语言覆盖范围相对于全球语言的多样性，仍是沧海一粟。

更关键的是，它们的扩展性极差，增加一种新语言，几乎等同于一次新的大型工程，需要数据专家和庞大的计算资源深度介入，普通社区用户根本无从参与。

对于数据稀缺的语言，超过30%的字符错误率（Character Error Rate, CER）更是常态，几乎不具备实用价值。

Omnilingual ASR的出现，宣告了一个新时代的到来。

它不再是简单地增加支持语言的数量，而是从根本上改变了多语言ASR的构建范式。

它让语言的扩展，从一个需要巨大投入的中心化工程，变成了一个社区可以驱动、持续生长的生态系统。

一个模型，倾听世界千语

Omnilingual ASR的架构拥有一双能听懂世界所有声音元音的耳朵，和一个能根据上下文灵活拼写出任何语言的大脑。

这双耳朵，就是它的编码器（Encoder）。

这个编码器基于Meta AI自家的wav2vec 2.0模型，但被前所未有地扩展到了70亿参数的庞大规模。

wav2vec 2.0的核心思想是自监督学习，它并不需要人类告诉它哪个音节对应哪个文字。

相反，它通过聆听海量的、未被标注的原始音频，自己去发现声音中潜在的结构和规律。

这好比一个婴儿，在学会说话之前，通过不断地听周围人讲话，逐渐形成了对语音最基本的感知。

Omnilingual ASR的编码器，就是在430万小时的音频海洋中进行这种聆听，其中包含了1239种不同语言的声音。

这使得它对人类语音的声学共性，有了极为深刻的理解。

这颗大脑，就是它的解码器（Decoder）。

Omnilingual ASR提供了两种解码器方案，以适应不同场景的需求。

一种是CTC（联结主义时间分类）解码器，它结构简单，在编码器之上叠加一个线性层，追求极致的推理速度，非常适合需要实时转录的场景。

根据官方报告，一个3亿参数的CTC模型在A100上处理30秒的音频，其实时因子低至0.001，快到几乎没有延迟。

另一种，则是这次技术革命的核心，一个LLM（大语言模型）风格的解码器。

它采用类似GPT的Transformer架构，逐个字符地生成文本。它不像CTC那样直接吐出结果，而是像一个作家一样，会根据已经写出的部分，去思考下一个最合适的字符是什么。

这种基于上下文的生成方式，赋予了它惊人的灵活性和准确性，尤其是在处理语法结构复杂或低资源语言时，表现远超CTC。

将强大的耳朵和智慧的大脑结合，Omnilingual ASR便拥有了理解多种语言的基础。

但真正让它实现对1600多种，乃至理论上5400多种语言支持的，是零样本上下文学习机制。

传统模型要学会一门新语言，必须用该语言的数据进行再训练，调整内部的亿万个参数。

而Omnilingual ASR的LLM解码器模型，完全不需要这个过程。你只需要给它提供几个范例，即几对该新语言的音频-文本样本。

在推理时，系统会进行这样的操作：将这些范例和你真正想要转录的目标音频，像穿糖葫芦一样串在一起，然后一同输入给解码器。

解码器在处理前面的范例时，会迅速领悟到这门新语言的声音和文字之间的对应关系，然后利用这种新学到的知识，高质量地转录出最后的目标音频。

整个过程，模型的权重参数没有一丝一毫的改变。

为了让这个参考过程更高效，系统还引入了一个名为SONAR的多语言多模态编码器。

它能将音频和文本都映射到一个共享的向量空间里。

当你输入一段目标音频时，SONAR会迅速在样本库中，找到与之在声音和语义上最相似的几个范例。这种智能检索，相比随机挑选范例，能将转录的准确率提升15%到20%。

仅仅需要3到5对样本，Omnilingual ASR就能对一门全新的、从未见过的语言，达到可用的转录质量。

这彻底拆除了多语言ASR技术扩展的壁垒，让语言的边界，第一次可以由社区和用户自己来定义。

数据是文化的火种

巧妇难为无米之炊。Omnilingual ASR这座技术大厦的基石，是其前所未有的训练数据集。这个数据集的构建过程，本身就是对过往数据采集模式的一次革新。

其核心是有标签语音数据集AllASR。它整合了海量的开源数据、内部语料、合作伙伴授权数据，以及专门委托采集的数据，总时长达到了惊人的120,710小时，覆盖1,690种语言。

这个规模，已经超越了以往任何一个公开的ASR数据集。

比规模更重要的，是其对待低资源语言的方式。Meta AI专门发起并构建了一个名为Omnilingual ASR Corpus的语料库，专注于那些最被忽视的语言。

团队没有采用互联网上常见的抓取模式，因为那种方式只会不断复制强势语言。

他们选择与非洲、南亚等地的本地组织合作，直接走进语言社区。

他们招募母语者作为贡献者，并为他们的劳动支付报酬。

采集方式也并非让人们朗读固定的、翻译过来的句子，而是通过开放式的提示，鼓励他们用最自然的方式进行独白，讲述自己的故事、生活和文化。

这样采集到的3,350小时，覆盖348种低资源语言的语音，是鲜活的、自然的、充满文化温度的。

更可贵的是，Meta AI将这个Omnilingual ASR Corpus以CC-BY-4.0许可协议完全开放，任何人都可以通过Hugging Face获取。

Omnilingual ASR在各项基准测试中，都展现了与它宏大愿景相匹配的硬实力。

评估ASR性能的核心指标是字符错误率（CER），这个数字越低，代表转录的准确性越高。

根据Meta AI的官方报告，其最强大的omniASR_LLM_7B模型，在超过1600种语言上都达到了当前最先进（SOTA）的水平。

在公开的多语言基准测试FLEURS 102上，Omnilingual ASR与Google的USM等顶级模型进行了正面比较。

Omnilingual ASR的核心创新，并非仅仅是参数量或数据量的堆砌，而在于范式上的突破。

它的可扩展性是革命性的。USM和Whisper都只支持一个固定的语言集合，无法由用户自行扩展。

而Omnilingual ASR通过上下文学习，理论上可以支持任何有少量样本的语言，将上限提升到了5400种以上。

它将扩展新语言的门槛，从需要顶尖AI专家的复杂工程，降低到了普通社区成员只需要提供几段录音和文本就能完成的任务。

它的开放性是最彻底的。

模型、数据、代码全部开源，遵循非常宽松的许可协议。

这构建了一个开放的生态，邀请全世界的研究者、开发者和语言社区，共同来丰富人类的数字声音世界。

各种地方方言，少样本即可迁移。

参考资料：

https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/

https://github.com/facebookresearch/omnilingual-asr

https://huggingface.co/datasets/facebook/omnilingual-asr-corpus

https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/

END

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。