中文错别字识别解决方案,可直接下载使用,环境按指定版本安装,专有名词可自行添加略过逻辑,可能会有少数专有名词识别不了报错。
训练过程
- 准备一批没有错误的正常样本
- 根据正常样本随机生成错别字,错别字应该遵循同音、近音、词组的原则,同时避开人名地名机构名等专有名词
- 用bert微调训练
项目地址:https://github.com/ganguagua/error_recognize
在线预估
- 用千万级别的新闻报道数据训练的模型,误报20%以内:
网盘地址:https://pan.baidu.com/s/15lHNcOBudv-t73D0rUFwXQ 提取码:s9nc - 使用方法:
- 环境:python2.7+tensorflow1.14+tornado5.1
- 解压:tar -xf model_v2.tar
- 启动http服务:python server.py &
- 预估:curl “http://127.0.0.1:1111/classify?sentences=%5b%22%e4%bb%8a%e5%a4%a9%e7%9a%84%e5%a1%ab%e6%b0%94%e7%9c%9f%e5%a5%bd%e5%95%8a%22%5d”
- sentences参数是urlencode的 [“今天的填气真好啊”]
- 返回结果[(4, ‘填’)],表示第四个字“填”错误