CompHub 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…)比赛。本账号会推送最新的比赛消息,欢迎关注!
更多比赛信息见 CompHub主页
以下内容摘自比赛主页(点击文末阅读原文进入)
Part1赛题介绍
题目
举办平台
主办方
-
指导单位:中国中文信息学会
-
主办单位:中国中文信息学会 自然语言生成与智能写作专业委员会(筹)
-
承办单位:清华大学、哈尔滨工业大学(深圳)、百度
背景
自然语言生成旨在让机器能够像人一样使用自然语言进行表达和交互,它是人工智能领域重要的前沿课题,也是全球热点技术AIGC(AI Generated Content,人工智能内容生成)的核心问题之一。
随着神经网络生成模型特别是预训练语言模型的迅速发展,机器生成文本的可读性和流畅性不断提升。然而,自动生成的文本中依然经常出现不符合原文或背景的错误事实描述,这种生成的事实一致性问题是自然语言生成进行落地应用的主要障碍之一,并逐渐受到研究学者的关注。鉴于当前国内外关于事实一致性的生成评测比赛十分匮乏,为了促进自然语言生成的技术发展和实际应用,我们组织了面向事实一致性的生成评测比赛。
去年,我们成功举办了第一届面向事实一致性的生成评测比赛,本次比赛一共吸引了577名高校、企业的参赛者,其中有57支参赛队提交了有效的正式赛结果,30支参赛队自动评测指标超过基线系统,在排名Top10的队伍中,收到9份参赛系统总结报告。在正式赛的人工评估过程中,我们进一步确认了事实一致性问题的广泛存在性,并且通过与参赛队伍的深入交流,也积累了更多对于事实一致性自动和人工评测的宝贵经验。
今年,我们举办第二届面向事实一致性的生成评测比赛,在数据集、自动评测指标等方面均有升级。在此比赛中,我们将提供三个对事实一致性有较高要求的生成任务,包括文案生成、摘要生成和对话生成。同时,在系统评价中,我们将结合文本流畅性和事实一致性两项指标综合评估参赛生成系统的水平,同时进一步提升事实一致性评测指标的先进性和丰富性。通过这样的任务设定和评价方式,此评测将有助于研究者和开发者更多关注自然语言生成的事实一致性难题,并为大家提供学术交流平台,从而进一步提升自然语言生成的研究水平,推动相关技术的应用发展。
本比赛得到中国中文信息学会自然语言生成与智能写作专业委员会(筹)支持,将在2023年7月16日第二届中国自然语言生成与智能写作大会(NLGIW 2023)召开评测研讨会,并在大会上对获奖团队颁奖。
Part2时间安排
阶段 | 时间 | 说明 |
---|---|---|
开启报名 | 2022.12.30 | 参赛队伍报名开始 |
热身阶段 | 2023.1.9 ~ 2023.2.5 | 发布训练集、开发集 |
正式赛-初赛阶段 | 2023.2.6 ~ 2023.3.31 | 发布评测工具、测试集1,开启在线评测榜单,本阶段结束时报名截止 |
正式赛-复赛阶段 | 2023.4.7~2023.4.10 | 发布测试集2,参赛队伍提交测试集2的最终结果 |
正式赛-人工评估 | 2023.4.11~2023.4.30 | 人工评估测试集2上top10队伍并确定最终排名 |
评测会议 | 2023.7.16 | 在评测研讨会上发布比赛结果 |
Part3奖励机制
排名 | 奖品 | 数量 |
---|---|---|
第一名 | 20000元(税前)+获奖证书 | 1名 |
第二名 | 10000 元(税前)+获奖证书 | 1名 |
第三名 | 5000元(税前)+获奖证书 | 1名 |
Part4赛题描述
评测任务
我们计划使用三个任务数据集测试参赛系统的生成能力,包括文案生成、摘要生成和对话生成:
-
文案生成根据结构化的商品信息生成合适的广告文案;
-
摘要生成是为输入文档生成简洁且包含关键信息的简洁文本;
-
对话生成是根据给定的用户个性知识描述,在给定的上下文中,生成合适的对话回复;
以上这三个任务对生成结果的事实一致性均有较高要求。 本次比赛的赛题设置有几个特点:
-
面向应用。三个任务数据都是从实际应用场景构建的任务,任务有很强的实用性。
-
任务形式多样。覆盖数据到文本生成,摘要生成,对话生成等多类任务。
-
评估方式更全面。同时评估生成文本的流畅性和事实准确性。
评测指标(自动)
我们将同时评估参赛系统生成结果的事实一致性和文本流畅性,并综合考虑各项评估指标,计算最终成绩(具体计算方式待公布)。
-
事实一致性指标: 由于任务1的输入有明确的事实数据,所以采用专门的评估指标,对任务2、3采用通用的评估指标,具体如下:
-
对任务1,采用PARENT指标,同时将生成的句子和参考文本、输入表格信息比较,在兼顾参考答案的同时,评价生成内容是否忠于输入表格的信息;
-
对任务2、3,利用提前构建的文本蕴含模型,通过衡量参考答案与文本生成结果的蕴含关系,作为衡量事实一致性的通用评估指标,同时将使用我们提出的新评测指标WeCheck,进一步评估事实一致性效果;
-
文本流畅性指标: 使用BLEU-4,基于参考答案和预测结果,计算n-gram的匹配度。