NLP错别字识别（附代码和模型和服务，可在线测试）

置顶东城地瓜

已于 2023-03-06 22:00:50 修改

阅读量5.2k

点赞数 4

分类专栏：推荐文章标签： tensorflow 深度学习 python 机器学习人工智能

于 2020-06-25 18:03:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_39422563/article/details/106957654

版权

推荐专栏收录该内容

9 篇文章

订阅专栏

中文错别字识别解决方案，可直接下载使用，环境按指定版本安装，专有名词可自行添加略过逻辑，可能会有少数专有名词识别不了报错。

训练过程

准备一批没有错误的正常样本
根据正常样本随机生成错别字，错别字应该遵循同音、近音、词组的原则，同时避开人名地名机构名等专有名词
用bert微调训练

项目地址:https://github.com/ganguagua/error_recognize

在线预估

用千万级别的新闻报道数据训练的模型，误报20%以内：
网盘地址：https://pan.baidu.com/s/15lHNcOBudv-t73D0rUFwXQ 提取码：s9nc
使用方法：

环境：python2.7+tensorflow1.14+tornado5.1
解压：tar -xf model_v2.tar
启动http服务：python server.py &
预估：curl “http://127.0.0.1:1111/classify?sentences=%5b%22%e4%bb%8a%e5%a4%a9%e7%9a%84%e5%a1%ab%e6%b0%94%e7%9c%9f%e5%a5%bd%e5%95%8a%22%5d”
sentences参数是urlencode的 [“今天的填气真好啊”]
返回结果[(4, ‘填’)]，表示第四个字“填”错误

博客等级

码龄8年

25
原创

36
点赞

149
收藏

8
粉丝

关注

私信

热门文章

分类专栏

推荐 9篇

展开全部收起

上一篇：: NLP文本处理小工具函数

下一篇：: bert源码详解

最新评论

模型训练loss先迅速下降后一直上升
Crocodile Tears: 请问一下您是怎么解决的呢？
模型训练loss先迅速下降后一直上升
qq_54867385: 是什么bug呀，说说看
模型训练loss先迅速下降后一直上升
爱倒腾的吴先森哎: 一个实验跑五次，为什么会出现有时候训练loss一直上升不降的情况，有些是训练loss先下降后上升，初始的学习率设定为0.0001，会自动调整学习率，早停
浅谈bert和lstm
高性能服务器: LSTM是代表性的rnn结构，rnn提出是为了解决时序的问题；典型的例子就是NLP中的句子理解，视频的内容理解；模型结构的设计保证输入顺序按照时序顺序对结果产生影响，当前时间步的输入是当前位置和上一个时间步的输出。优点：解决了dnn或者是bow词袋模型的问题，不能区分时序缺点：处理长文本的时候耗时较长，考虑到上下文，一般还采用双向rnn结构；模型效果上，对于长依赖问题效果不好，容易理解经过很多个step的传递，信息会减弱 BERT BERT通过注意力机制实现时序的理解，精妙之处有两点，一点是位置编码融入向量表达，另外一点是就是注意力机制中的QKV矩阵了；残差网络防止网络过于复杂带来的过拟合。优点：注意力机制，也就是每个位置相对另一个位置的权重是可以并行计算的，在计算资源足够的前提下比lstm会快很多；通过设计预训练任务，用海量无监督数据做预训练，模型效果更好缺点：由于网络更加复杂，计算量相对lstm更大，训练收敛更慢。
模型训练loss先迅速下降后一直上升
qq_44008804: 请问是什么样的bug呀，方便讲一下吗，万分感谢

大家在看

TI第三代C2000系列DSP（F2800137）实用教程第3篇原理图分析

最新文章

目录

展开全部

收起

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。