点击左上方蓝字关注我们
同声传译是一种受时间严格限制、难度极高的翻译方式,广泛应用于国际会议、商务会谈、新闻发布等场景。结合机器翻译,语音等技术的机器同传,是人工智能领域重要的前沿课题。
为推动技术进步,百度、谷歌、华为、以及格勒诺布尔-阿尔卑斯大学将在自然语言处理权威会议NAACL联合举办第二届国际机器同传研讨会(
https://autosimtrans.github.io)。作为本次大会的重要实践环节,将继续举办国际机器同传评测。本次评测于2020年12月28日正式启动,面向全球开启报名通道(
https://aistudio.baidu.com/aistudio/competition/detail/62)。
本次挑战赛设置了两个语言方向、三个赛道同声传译任务,提供大规模数据集及算力支持,所有参赛团队/个人都可获得百度、华为、Google等赞助商提供的丰厚奖金和获奖证书,并在研讨会上向国际专家学者介绍创新成果,探讨前沿趋势。
比赛介绍
任务说明:
评测包括中英、英西两个翻译方向共3项任务。参赛者可以选择其中一项或多项任务参赛。
中文->英文翻译,输入流式中文文本,翻译成英文;
中文->英文翻译,输入中文音频文件,翻译成英文;
英文->西班牙语翻译,输入流式英文文本,翻译成西班牙语;
其中,赛道1和赛道3的输入是流式文本输入,赛道2是语音输入。
比赛数据:
对于中英方向的翻译,采用了百度BSTC同传中译英数据集,训练集包含70小时的中文演讲和对应的人工转录及翻译结果。同时,提供了16个演讲和对应的转录结果作为开发集进行线下评估。
对于英西方向的翻译任务,提供联合国数据集来训练翻译模型,以及转录数据作为开发集进行线下评估。
评价方法:
采用BLEU和AL (average lagging)分数评估同传效果。BLEU分数评价翻译质量,AL指标评估时间延迟。参赛系统的评估结果将从BLEU和AL两个维度,在二维坐标上呈现。
飞桨基线及免费GPU算力:本次比赛提供基于飞桨的开源基线系统(
https://github.com/autosimtrans/SimulTransBaseline)及免费GPU计算资源。
比赛奖励
参赛者将获得NAACL Workshop论文发表和分享机会。此外,百度、华为、Google等赞助商将为获胜队伍提供奖金及获奖证书。每个赛道奖项设置如下:
一等奖:一名,1000美元
二等奖:一名,800美元
三等奖:一名,500美元
重要时间
2020.12.28 – 2021.1.30 报名
2021.2.20 - 2021.3.1 结果提交系统
2021.3.11 系统描述论文提交Workshop进行审稿
2021.3.25 录用结果通知
2021.4.11 提交论文Camera-Ready版本
报名方式
参赛者可以选择个人参加或组队参加,扫描下方二维码或点击“阅读原文即可报名”,赶快参加吧。
阅读原文链接:
https://aistudio.baidu.com/aistudio/competition/detail/62
本次竞赛的数据来自于千言数据集项目。“千言”(https://luge.ai)是百度联合中国计算机学会、中国中文信息学会共同发起的,由来自国内多家高校和企业的数据资源研发者共同建设的中文开源数据集项目。通过该项目,联合各界力量,为研究人员和开发者提供学术和技术交流的平台,进一步提升语言与知识技术的研究水平,推动自然语言理解、知识图谱和人工智能领域技术的应用和发展。