- 博客(28)
- 资源 (10)
- 收藏
- 关注

原创 日语纠错问题 拼写纠错
目前在做日语纠错任务,主要是为了解决公司query召回率低的问题,目前可行的方案有下面几个:一个是科大讯飞的那个gector模型 ,他主要是利用了bert或者Robert来做特征提取,然后会在最后接上两个全链接网络,分别用来输出每个日语单词纠正的对象可他们本身错误的概率值信息,通过对他们的结果分别求得一个loss值来进行反向梯度传递,不断进行训练以此达到最优值,其中错误数据的是我通过罗马音和编辑距离为一的一些词进行随机的替换构成的,以此来模仿真实地错误数据。未完待续。。另外一个就是根据Be...
2021-09-01 00:13:52
652

原创 训练时loss不下降问题
1、训练集loss不下降2、测试集loss不下降3、验证集loss不下降二、epoch在100内损失出现nan可能原因以及解决三、自适应学习率设置一、训练时loss不下降问题1、训练集loss不下降 1.1 模型结构和特征工程存在问题 1.2 权重初始化方案有问题 1.3 正则化过度 1.4 选择合适的激活函数、损失函数1.5 选择合适的优化器和学习速率 1.6 训练时间不足1.7 模型训练遇到瓶颈1.8 batch size过大
2021-08-29 14:59:08
4966
2

原创 模型训练基本
pytorch训练技巧使用DataLoadersDataLoader中的workers数量允许批量并行加载。因此,您可以一次装载nb_workers个batch,而不是一次装载一个batch。loader=DataLoader(dataset,batch_size=32,shuffle=True,num_workers=10)Batch size在开始下一个优化步骤之前,将batch size增大到CPU-RAM或GPU-RAM所允许的最大范围。下一节将重点介绍如何帮助...
2021-08-29 14:58:33
390

原创 Spell Correct
一、项目背景为了对项目当中一些query的拼写错误进行修改,防止错误数据对搜索造成的影响,尝试对query进行拼写纠错,但是目前市面上的纠错方案大部分都是中文的,用在单词类别语言上效果都不太好,而且都没有主要考虑上下文之间的关系,他们更加关心混淆字以及同音字类型纠错,这些方案等价到单词类型语言时,就变成编辑距离加上词频进行纠错,但是本框架结构,不单单是挑选词频较高的单词,更加注重上下文的关系,使得纠正完成后的query更加符合用用户的意图,还有一些用BILSTM后者CNN+LSTM来做拼写纠错,但是相对
2021-08-28 19:30:55
264
原创 拼写纠错(Spelling Correct)技术方案总结
1 纠错基础知识 1.1 常见错误类型 1.2 纠错组成模块 2 深度学习技术 2.1 FASPell(爱奇艺) 2.1.1 技术方案 2.1.1.1 背景 2.1.1.2 模型结构 2.1.1.3 训练过程 2.1.2 优点和缺点 2.2 SpellGCN (阿里) 2.2.1 技术方案 2.2.1.1 背景 2.2.1.2 模型结构 2.2.1.3 训练过程 2.2
2021-09-03 17:06:42
1947
原创 基于pytorch模型剪枝的实现(极大的减少模型计算参数加快模型运行速度)
深度模型剪枝实现以及一些网络优化技巧模型剪枝:Learning Efficient Convolutional Networks Through Network Slimming (ICCV 2017). 基于论文的代码复现以及拓展: 在网络上中加入其它优化方法 最强深度学习优化器Ranger warm up与consine learning rate 为什么使用warmup? label smooth apex混合精度训练 梯度累加 其他网络部署的
2021-09-02 16:51:12
955
原创 多GPU训练半精度和单精度问题
125|0%| | 0/1 [00:00<?, ?it/s] 0%| | 0/1 [03:24<?, ?it/s]126|Traceback (most recent call last):127|File "/nfs/volume-826-2/carlos/0830_dector/ja/AA_gector-master/train.py", line 305, in <module>128|args = parser.parse_args()129|Fil...
2021-09-02 14:19:07
1897
原创 AllenNLP 用法总结
AllenNLP另外很重要的一点在于,它在torch的model的基础上添加了很多的方法,使得模型更加适用于NLP场景的使用。AllenNLP设计模型的思想在于:输出为dict格式,里面必须包含loss,其余则由我们自行决定。因此输出相比传统的pytorch模型,输出更加的丰富,我们可以把我们任何想要的信息都通过这个字典返回~model.py文件有370多行,大体上需要注意的是__init__ 里要传入vocab与regularizer get_regularization_penal
2021-09-01 20:34:06
1744
原创 评价指标汇总--------汇总
在使用机器学习算法过程中,针对不同的问题需要不用的模型评估标准,这里统一汇总。主要以两大类分类与回归分别阐述。一、分类问题混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。真正(True Positive , TP):被模型预测为正的正样本。假正(False Positive , FP):被模型预测为正的负样本。假负(False Negative , FN):被模型预测为负的正样本。真..
2021-09-01 00:52:21
494
原创 Python 个人总结的一些常用函数
数据集 AC错误 BD正确# -*- coding: utf-8 -*-chrome://flags/#extensions-on-chrome-urls问题: Initializing libiomp5.dylib, but found libomp.dylib already initialized.import osos.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"带颜色的字体from colorama import Fore, Ba...
2021-09-01 00:22:24
762
原创 图论
图的概念图是一种非线性的数据结构,一个图中有两类东西,一种是结点,一种是边.我们用V这个集合来表示节点(vertex),还需要另一个集合来存储所有的边,我们用E来表示(Edge),那么一个图就可以表示为:G=(V,E);带箭头的称为有向图,否则称为无向图.如果一个图的任意两个结点之间有且只有一条边,则称此图为无向完全图,若任意两个结点之间有且只有方向相反的两条边,则称为有向完全图.度是针对结点来说的, 又分为出度和入度,对于有向图来说,出度就是指以这个结点为起始的边的条数(箭头向外),入度则是以这个
2021-08-31 13:33:36
162
转载 11款程序员实用工具
优秀程序员之所以优秀的原因并不一定是他写代码的速度比所有人都快,但他解决事情的效率一定是比很多人都要高的,提升工作效率的方法并不需要我们十八般武艺样样精通,有时候使用好的工具就能帮助我们大大提升办事效率。今天给大家分享11个程序员建议收藏的工具,老少皆宜,尤其是新手程序员,技术水平一时半会儿可能难以提升,需要持之以恒地学习和练习,但工具用得好,做事效率是可以快速提升的。一、优快云浏览器助手(开发者必备的浏览器插件)这是优快云官方推出的一款浏览器插件,也是我一直在用的一款比较不错的工具,我这里没
2021-08-29 15:28:27
859
原创 GOOGLE 谷歌翻译实现
1、访问速度太快被封req = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(req)data = response.read().decode('utf-8')2、稳定但是速度太慢response,prediction = translator.translate(content, dest='es',src='es')3、速度稍微快一些url_encode_...
2021-08-29 15:01:07
166
原创 Transformer Encoder
ERNIE 采用了 Transformer Encoder 作为其语义表示的骨架。Transformer 是由论文Attention is All You Need首先提出的机器翻译模型,在效果上比传统的 RNN 机器翻译模型更加优秀。Transformer 的简要结构如图1所示,基于 Encoder-Decoder 框架, 其主要结构由 Attention(注意力) 机制构成:Encoder 由全同的多层堆叠而成,每一层又包含了两个子层:一个Self-Attention层和一个前馈神经网络。Self.
2021-08-29 15:00:17
574
原创 OS X El Capitan 10.11开启性能模式
要在OSXElCapitan10.11及更高版本中开启性能模式,请使用nvram命令来调整boot-argsNVRAM变量。如果您重置NVRAM,该设置也将被清除。以下命令会显示boot-argsNVRAM变量。如果您看到serverperfmode=1,则说明性能模式已开启。nvramboot-args如果性能模式尚未开启,您可以在boot-argsNVRAM变量中使用以下命令来设置serverperfmode=1,从而启用该模式:sudonvr...
2021-08-29 14:56:17
290
原创 Seq2Labels 模型结构
Seq2Labels( (text_field_embedder): BasicTextFieldEmbedder( (token_embedder_bert): PretrainedBertEmbedder( (bert_model): BertModel( (embeddings): BertEmbeddings( (word_embeddings): Embedding(21128, 768, padding_idx=0) ...
2021-08-28 19:57:33
224
原创 Docker
Linux系统分为两种:1.RedHat系列:Centos、Redhat、Fedora等 RedHat系列的包管理工具是yum2.Debian系列:Ubuntu、Debian、等 Debian系列的包管理工具是apt-get 鲁班 UbuntuCentOS的软件安装工具不是apt-get是yum #yum-yinstallgccubuntu下安装SSH可以: apt-getinstal...
2021-08-28 19:56:16
130
原创 Linux命令
linux启动后环境变量加载的顺序为:etc/profile → /etc/profile.d/*.sh → ~/.bash_profile → ~/.bashrc → [/etc/bashrc]https://www.cnblogs.com/xuxinstyle/p/9609551.html 50个常用命令~也表示为 home 目录 的意思,.则是表示目前所在的目录,..则表示目前目录位置的上一层目录cat/etc/redhat-release 查看CentOS版本...
2021-08-28 19:55:15
247
原创 NLP 任务类别
index English Chinese1 Automatic speech recogniton 自动语音识别2 CCG supertagging CCG 超级标记3 Common sense 常识4 Constituency parsing 选区分析5 Coreference resolution 共指消解6 Dependency parsing 依存关系句法分析7 Dialogue 对话8 Domain adaptation 领域自适应9 Entity lin..
2021-08-28 19:50:57
228
1
原创 编码格式
str1 = '\'".,,。!!`~·@#¥$%……^-——+=*\/|:?《》【】[]{}()()<>巴拉1123ABCXYacdxyzZáéõÑ' # 全所有字符号西班牙中所有符号áéíóúüñ¡¿ÁÉÍÓÚÜÑÂÊÔÃÕÀàãÇçôöêâäõa-zA-Z Unicode(UTF-8) UTF-8 阿拉伯语(Windows-1256) windows-1256 中欧Latin-2...
2021-08-28 19:49:22
258
原创 NLP主要内容
文章目录目录 〇、推荐 一、人工智能学习算法分类 1. 纯算法类 2.建模方面 二、详细算法 1.分类算法 2.回归算法 3.聚类算法 4.降维算法 5.概率图模型算法 6.文本挖掘算法 7.优化算法 8.深度学习算法 三、建模方面 1.模型优化· 2.数据预处理 〇、推荐无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。
2021-08-28 19:46:58
224
原创 BERT 理解
BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。可以调整的参数和取值范围有:
2021-08-28 19:44:39
576
原创 PyCorrector——中文语言纠错模型 文本纠错工具
谐音字词,如配副眼睛-配副眼镜混淆音字词,如流浪织女-牛郎织女字词顺序颠倒,如伍迪艾伦-艾伦伍迪字词补全,如爱有天意-假如爱有天意形似字错误,如高梁-高粱中文拼音全拼,如xingfu-幸福中文拼音缩写,如sz-深圳语法错误,如想象难以-难以想象1.use kenlm1.1 kenlm打分1.2 分词1.3 (2或3_gram)打分1.4 numpy矩阵处理2.编辑距离3.pandas use pycorrector错误检测...
2021-08-28 19:40:16
2024
原创 正确率,精确率,召回率.
样本为负被预测为正的应该用FP而不是FN。这样理解P代表目前所有结果显示是1 N代表目前所有结果显示是0N=negative、P=positive、T=true、F=false。TF是预测为正负,NP为实际正负。假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标。TP: 将正类预测为正类数 40 正确的正类FN: 将正类预测为负类数 20 错误的负类FP: 将负类预测为正类数 10 错误的正类TN: 将负类预...
2021-08-28 19:37:13
836
原创 接口继承与实现
interface是定义接口的关键字,所谓的接口说白了就是一个规则,用电脑的USB插口打个比方public interface USB接口{这个接口只能插标准USB接口();/*所谓接口中的方法就是定义了个规范,而我这个标准USB接口中要插鼠标还是优盘,那就是在你的实现类中根据具体情况来看了*/}而implement就是实现接口的关键字,你要是现实了一个接口,那就必须实现里...
2019-08-08 14:49:22
745
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人