
CSC-中文拼写错误检查
文章平均质量分 89
CSC-中文拼写错误检查-资料专栏
Flying Warrior
以NLP为任务驱动,深入思考数学问题和方法,尝试对AI社区做出一点点贡献。
展开
-
文献阅读-CSC-Confusionset-guided Pointer Networks for Chinese Spelling Check
Confusionset-guided Pointer Networks for Chinese Spelling Check作者:Tencent Cloud AI时间:2019年会议:ACL-2019论文地址简述:输入:数据集-正确句子-错误句子-location–混淆集-M怎么做:一个网络判断训练并判断哪个地方是错的-pointed-network,然后,正确的就赋值过去,错误的就在混淆集里面选,不过选的时候,因为seq2seq的encode是一个一个预测的,所以,这个时候,混淆集的选择,原创 2021-03-15 17:13:24 · 1122 阅读 · 5 评论 -
文献阅读-CSC-中文错别字-有关论文搜集-+CGED
2020:CYUT Team Chinese Grammatical Error DiagnosisSystem Report in NLPTEA-2020 CGED SharedTask.任务:中文语法错误诊断系统数据集:NLPTEA2020 CGED shared task方法:提出两个方法,第一个是CRF和BERT结合。第二个是CRF方法文章链接(科技部资助)...原创 2021-02-03 15:19:53 · 2461 阅读 · 0 评论 -
文献阅读笔记-CSC-Chunk-based Chinese Spelling Check with Global Optimization-翻译+模型理解
摘要:CSC是一个有挑战性的任务,因为中文有许多独特的特点,比如:很大的字符集,没有词语边界,很短的词语长度。一方面:之前的工作只是考虑了相似的字符发音或者形状,不能够纠正视觉和发音上不相关的错别句。另一方面:各种pipeline-style 结构被广泛运用,这是十分难以优化的。为了解决这个问题,我们提出,1.用语义候选来扩充之前的混淆集合。2.提出一个基于块的结构去统一的纠正,单个字和多个字。3.运用一个全局最优策略去加强一个句子级别的纠正选择。(word:中文中的词,char:中文中的原创 2021-02-04 17:55:17 · 1205 阅读 · 4 评论 -
文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check
A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记一、做了什么和怎么做的(很简单)初读的理解:这篇论文做的事情,就是给CSC任务提供数据,做了一个该任务下的数据生成。做法:大量无标注数据,根据 形近似和音近似 两个方面来替换其中的一部分字符。形近:把一个字转化为图片,把图片模糊一部分,用OCR对她进行扫描,选出识别错误的,去进行替换。音近:收集普通话演讲语料和演讲,用ASR对演讲进行原创 2021-01-27 09:49:49 · 2200 阅读 · 5 评论