Datawhale干货
作者:章岳,苏州大学研究生,达摩院实习
近期参加了2022 蜜度中文文本智能校对大赛,经过2个月的比赛,在600余名参赛者中取得了第一名的成绩,相关技术也已在钉钉文档等产品落地应用。借此机会,笔者想和大家分享下对中文文本纠错任务的一些看法。

0. 团队介绍
笔者所在的团队是苏州大学-阿里达摩院联队,成员包括章岳、蒋浩辰、章波、包祖贻四位,指导老师是李正华和李辰老师。
团队成员拥有自然语言处理方向的丰富研究经验,特别是对中英文的拼写、语法纠错有长期的研究和积累,相关研究成果已经在自然语言处理顶级学术会议EMNLP、NAACL等发表, 获得过CGED、CTC等纠错评测的多次冠军,并持续将研究成果开源开放,如MuCGEC数据集和模型库等。除了科研成果外,我们也将相关技术落地应用,为钉钉文档、阿里邮箱等多款产品提供文本纠错功能。
1. 任务简介
中文文本纠错任务作为中文自然语言处理的一项较为重要的下游任务,在搜索、教育、新闻等领域都有着落地的价值。在英文上,文本纠错任务已经得到了广泛的研究,已有Grammarly等成熟的文本纠错工具。而由于中文的复杂性与自由性,中文文本纠错的研究距离实际落地使用还有很大的距离,因此仍有着广阔的研究空间。
中文文本纠错任务的形式非常简单:给定一个中文句子,纠正其中可能含有的各种类型的错误,包括但不限于拼写、语法和语义错误。比如下面的例子:
{
"source": "精娘啤酒+汉堡,这对CP磕了磕了!",
"target": "精酿啤酒+汉堡,这对CP磕了磕了!",
"type": "negative",
"id": 2600372
},
虽然形式简单,但该任务难点众多,比如:
1)训练数据稀缺:真实的纠错训练数据相较于其他常见的生成任务(如机器翻译、摘要等)难获得很多,首先是语病在日常文本中非常稀疏,其次需要标注者拥有良好的语文背景;
2)中文表达灵活:不像英语等语言有着大量易于纠正的词形错误(单复数、人称、时态),中文的表达博大精深,很多错误非常隐晦且难于修改,需要丰富的语法知识,现阶段的模型很难处理。
与传统的中文纠错评测(NLPCC18,CGED系列)不同,本次赛事评测主要面向的是汉语母语者文本,更贴近真实场景。经过对主办方提供的开发集进行仔细观察后,我们总结了本次数据的一些特点:
文本来自于互联网,主题多样,包括科技、教育、新闻等主题。
数据中命名实体多(如地名、人名、账号名)、口语化、成语多、句子较长等,加大了纠错的难度。
常见错误类型:拼写错误(高频)、字词冗余(高频)、字词缺失(中频)、字词误用(低频)、语义错误(句

最低0.47元/天 解锁文章
930

被折叠的 条评论
为什么被折叠?



