NLP错别字识别(附代码和模型和服务,可在线测试)

中文错别字识别解决方案,可直接下载使用,环境按指定版本安装,专有名词可自行添加略过逻辑,可能会有少数专有名词识别不了报错。

训练过程

  1. 准备一批没有错误的正常样本
  2. 根据正常样本随机生成错别字,错别字应该遵循同音、近音、词组的原则,同时避开人名地名机构名等专有名词
  3. 用bert微调训练

项目地址:https://github.com/ganguagua/error_recognize

在线预估

  1. 用千万级别的新闻报道数据训练的模型,误报20%以内:
    网盘地址:https://pan.baidu.com/s/15lHNcOBudv-t73D0rUFwXQ 提取码:s9nc
  2. 使用方法:
  • 环境:python2.7+tensorflow1.14+tornado5.1
  • 解压:tar -xf model_v2.tar
  • 启动http服务:python server.py &
  • 预估:curl “http://127.0.0.1:1111/classify?sentences=%5b%22%e4%bb%8a%e5%a4%a9%e7%9a%84%e5%a1%ab%e6%b0%94%e7%9c%9f%e5%a5%bd%e5%95%8a%22%5d”
  • sentences参数是urlencode的 [“今天的填气真好啊”]
  • 返回结果[(4, ‘填’)],表示第四个字“填”错误
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值