51语言数据集发布，推动自然语言理解技术发展

最新推荐文章于 2025-12-04 16:43:45 发布

原创最新推荐文章于 2025-12-04 16:43:45 发布 · 315 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #数据集 #机器学习 #多语言模型 #程序那些事 #AIGC #pandas

今天，发布了三项与大规模多语言自然语言理解（MMNLU）相关的公告。

首先，发布了一个名为MASSIVE的新数据集。该数据集包含跨越51种语言的100万条标注话语，并附带了开源代码。代码提供了如何执行大规模多语言NLU建模的示例，并允许实践者复现论文中针对意图分类和槽填充任务给出的基线结果。

其次，启动了一项基于MASSIVE数据集的新竞赛，名为"大规模多语言NLU 2022"（MMNLU-22）。

第三，将在EMNLP 2022会议期间，于阿布扎比及线上共同主办一个同名研讨会。该研讨会将重点展示竞赛结果，并包括特邀演讲、以及关于多语言自然语言处理（NLP）的投稿论文的口头和海报展示环节。

MASSIVE数据集

MASSIVE是一个平行数据集，意味着每个话语都以所有51种语言提供。这使得模型能够学习具有相同意图的话语的共享表示，无论使用何种语言，从而促进自然语言理解（NLU）任务的跨语言训练。它还能适应其他NLP任务，如机器翻译、多语言释义、对祈使句形态的新语言学分析等。

NLU是NLP的一个子领域，指机器理解文本含义并识别相关实体的能力。例如，对于话语"纽约的气温是多少？“，一个NLU模型可能会将意图分类为"weather_query”，并识别出相关实体"weather_descriptor: temperature"和"place_name: new york"。

重点是将NLU作为口语理解（SLU）的一个组成部分，在SLU中，音频在NLU执行前被转换为文本。尽管过去十年里，基于SLU的虚拟助手取得了重大能力进展，但全球范围内的学术和工业NLU工作仍局限于全球7000多种语言中的一小部分。

创建大规模多语言NLU模型的困难之一，是缺乏用于训练和评估的标注数据——特别是对于给定任务具有现实性、对给定语言具有自然性的数据。高自然性通常需要人工审核，而这往往成本高昂。

MASSIVE——用于槽填充、意图分类和虚拟助理评估的多语言SLURP资源包——包含100万条现实、平行、标注的虚拟助理文本话语，跨越51种语言、18个领域、60种意图和55个槽。MASSIVE是通过让专业翻译人员将仅限英语的SLURP数据集本地化或翻译成50种类型多样的语言（来自29个语系，包括低资源语言）而创建的。

名称	语言数量	每语言话语数	领域	意图	槽
MASSIVE	51	19,521	18	60	55
SLURP	1	16,521	18	60	55
NLU评估数据	1	25,716	18	54	56
ATIS	1	5,871	1	26	129
包含印地语和土耳其语的ATIS	3	1,315-5,871	1	26	129
MultiATIS++	9	1,422-5,897	1	21-26	99-140
Snips	1	14,484	-	7	53
包含法语的Snips	2	4,818	2	14-15	11-12
任务导向解析	1	44,873	2	25	36
多语言任务导向语义解析	6	15,195-22,288	11	104-113	72-75
跨语言多语言任务导向对话	3	5,083-43,323	3	12	11
某中心对话挑战	1	38,276	3	11	29
流利语音命令	1	30,043	-	31	-
中文音频文本口语理解	1	16,258	4	-	94

已经发布了一篇描述该数据集的论文，并在XLM-R和mT5模型上呈现了基线建模结果。用于数据集的工具，以及基线结果所用的建模代码，均可在Github代码库中找到。MASSIVE采用CC BY 4.0许可发布，鼓励在学术界和工业界进行最广泛的使用。

MMNLU竞赛和研讨会

在eval.ai上主办的MASSIVE排行榜和"大规模多语言NLU 2022"竞赛由两个任务组成。

在第一个名为"MMNLU-22-Full"的任务中，每个参赛者在完整的MASSIVE数据集的所有51种语言上训练和测试一个单一模型。

在第二个名为"MMNLU-22-ZeroShot"的任务中，每个参赛者仅使用英语标注数据微调一个预训练模型，并在所有50种非英语语言上进行测试。这评估了模型泛化到新语言的能力，考虑到全球范围内存在许多标注数据极少或没有的语言，这是一个重要的考量。零样本学习是将NLU技术扩展到全球更多低资源语言的关键技术。

永久性的MASSIVE排行榜已经启动，7月25日将发布"大规模多语言NLU 2022"评估集。参与者随后需在8月8日前对评估集进行推理并提交预测结果，这些结果将用于确定获胜者。获胜者将受邀在"大规模多语言NLU 2022"研讨会上进行口头报告。

"大规模多语言NLU 2022"研讨会与EMNLP 2022会议同期举行，将于12月7日或8日在阿布扎比现场及线上举行。会议征集涵盖NLU中多语言性各个方面的论文，首次征文通知将很快发布。研讨会将邀请演讲者就多语言性和NLU相关的各种主题进行演讲，并包括来自MMNLU-22竞赛顶级表现者的演讲。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）