Chunk-based Chinese Spelling Check with Global Optimization(EMNLP2020)
一.概述
作者认为,一方面,以往的工作大多只考虑对汉字读音或字形相近的错字进行校正,而没有对视觉上和语音上不相关的错字进行校正;另一方面,pipeline的体系结构被广泛用于处理各个模块中不同类型的拼写错误,这很难优化。
为此,作者提出:
1.用语义候选集扩展了传统的混淆集,以涵盖不同类型的错误
2.提出了一个基于块的(chunk-based))框架来统一纠正单字符和多字符的单词错误
3.采用全局优化策略来实现句子级的纠错选择
本文主要贡献如下:
1.提出了一种全局优化的基于块的解码方法,在统一的框架内纠正单字符和多字符的单词错别字
2.结合发音、形状和语义混淆集来处理不同的拼写错误
3.方法在三个基准数据集和一个OCR数据集上实现了新的最先进的性能
二.方法概述
上图是所提方法的流程。本文提出的拼写检查方法采用基于块的解码方法,统一处理单字和多字单词。在解码过程中,根据输入句子和部分解码后的句子动态生成可变长度的候选词。为了选择最佳的校正结果,采用全局排序优化方法将不同的特征组合在一起。