某中心发布涵盖51种语言的MASSIVE数据集
MASSIVE数据集以及Massively Multilingual NLU(MMNLU-22)竞赛和研讨会,将帮助研究人员将自然语言理解技术扩展到地球上每一种语言。
想象一下,全世界的人都能用自己的母语使用Alexa这样的语音AI系统。实现这一愿景的一个有前景的方法是大规模多语言自然语言理解(MMNLU)。在该范式中,单个机器学习模型能够解析和理解来自许多类型不同语言的输入。通过学习跨语言的共享数据表示,模型可以将从训练数据丰富的语言中学习到的知识,迁移到训练数据稀缺的语言中。
今日发布了三项与MMNLU相关的公告。
首先,发布了一个名为MASSIVE的新数据集,该数据集包含100万条标注语句,涵盖51种语言,同时开源了代码,提供了如何进行大规模多语言NLU建模的示例,并允许实践者复现论文中提出的意图分类和槽位填充的基线结果。
其次,启动了一项使用MASSIVE数据集的新竞赛,名为Massively Multilingual NLU 2022(MMNLU-22)。
第三,将在2022年于阿布扎比和线上举行的EMNLP 2022会议上,共同主办一个同样名为Massively Multilingual NLU 2022的研讨会。该研讨会将重点展示竞赛结果,并包括特邀演讲、以及提交的关于多语言自然语言处理论文的口头和海报展示环节。
MASSIVE数据集
MASSIVE是一个并行数据集,意味着每条语句都以所有51种语言提供。这使得模型能够学习具有相同意图的语句的共享表示,无论其语言如何,从而促进自然语言理解任务的跨语言训练。它也适用于其他NLP任务的适应,如机器翻译、多语言释义、对祈使句形态的新语言分析等。
NLU是NLP的一个分支,指机器理解文本含义并识别相关实体的能力。例如,给定语句“What is the temperature in New York?”,一个NLU模型可能将意图分类为“weather_query”,并将相关实体识别为“weather_descriptor: temperature”和“place_name: new york”。
这里的重点是作为口语理解(SLU) 组成部分的NLU。在SLU中,音频先被转换为文本,然后才进行NLU处理。尽管像Alexa这样基于SLU的虚拟助手在过去十年中取得了重大能力进步,但全球学术界和工业界的NLU工作仍然局限于世界上7000多种语言中的一小部分。创建大规模多语言NLU模型的困难之一在于缺乏用于训练和评估的标注数据——特别是对于给定任务来说是真实、对于给定语言来说是自然的数据。高度的自然性通常需要人工审查,这往往成本高昂。
MASSIVE——用于槽位填充、意图分类和虚拟助手评估的多语言亚马逊SLURP资源包——包含100万条真实的、并行的、标注的虚拟助手文本语句,涵盖51种语言、18个领域、60种意图和55个槽位。MASSIVE是通过让专业翻译人员将纯英语的SLURP数据集本地化或翻译成50种来自29个语系的类型多样语言(包括低资源语言)而创建的。
我们发布了一篇描述该数据集的论文,并在XLM-R和mT5模型上呈现了基线建模结果。数据集的工具以及用于基线结果的建模代码可在GitHub仓库中找到。MASSIVE采用CC BY 4.0许可证,鼓励其在学术界和工业界得到最广泛的使用。
MMNLU竞赛和研讨会
托管在eval.ai上的MASSIVE排行榜和Massively Multilingual NLU 2022竞赛由两个任务组成。第一个任务称为MMNLU-22-Full,每位参赛者使用完整的MASSIVE数据集中的所有51种语言训练和测试单个模型。第二个任务称为MMNLU-22-ZeroShot,每位参赛者仅使用英语标注数据微调一个预训练模型,并在所有50种非英语语言上进行测试。这评估了模型泛化到新语言的能力,考虑到世界上许多语言几乎没有标注数据,这是一个重要的考量。零样本学习是将NLU技术扩展到全球更多低资源语言的关键技术。
永久性的MASSIVE排行榜已经启动,MMNLU 2022评估集将于7月25日发布。参与者随后在8月8日之前对评估集进行推理并提交预测结果,这些结果将用于确定获胜者。获胜者将被邀请在Massively Multilingual NLU 2022研讨会上进行口头报告。
Massively Multilingual NLU 2022研讨会与EMNLP 2022联合举办,将于12月7日或8日在阿布扎比现场和线上同时举行。会议征求涵盖NLU中多语言化广度范围的论文投稿,首次征稿通知将很快发布。研讨会将设有关于多语言性和NLU相关主题的演讲,以及来自MMNLU-22竞赛顶尖表现者的演讲。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
917

被折叠的 条评论
为什么被折叠?



