Chunk-based Chinese Spelling Check with Global Optimization(EMNLP2020)

Chunk-based Chinese Spelling Check with Global Optimization(EMNLP2020)

一.概述

  作者认为,一方面,以往的工作大多只考虑对汉字读音或字形相近的错字进行校正,而没有对视觉上和语音上不相关的错字进行校正;另一方面,pipeline的体系结构被广泛用于处理各个模块中不同类型的拼写错误,这很难优化。

  为此,作者提出:

  1.用语义候选集扩展了传统的混淆集,以涵盖不同类型的错误

  2.提出了一个基于块的(chunk-based))框架来统一纠正单字符和多字符的单词错误

  3.采用全局优化策略来实现句子级的纠错选择

  本文主要贡献如下:

  1.提出了一种全局优化的基于块的解码方法,在统一的框架内纠正单字符和多字符的单词错别字

  2.结合发音、形状和语义混淆集来处理不同的拼写错误

  3.方法在三个基准数据集和一个OCR数据集上实现了新的最先进的性能

二.方法概述

在这里插入图片描述

  上图是所提方法的流程。本文提出的拼写检查方法采用基于块的解码方法,统一处理单字和多字单词。在解码过程中,根据输入句子和部分解码后的句子动态生成可变长度的候选词。为了选择最佳的校正结果,采用全局排序优化方法将不同的特征组合在一起。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨痕_777

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值