
NLP学习总结
文章平均质量分 95
lijiaqi0612
这个作者很懒,什么都没留下…
展开
-
使用ACL推理UIE模型的过程及代码
ATC(AscendTensorCompiler)是华为昇腾软件栈提供的一个编译工具,它的主要功能是将基于开源框架的网络模型(如Caffe、TensorFlow等)以及单算子Json文件,转换成昇腾AI处理器支持的离线模型Offline-Model文件(简称OM文件)。在编译过程中,可以实现算子调度的优化、权值数据重排、内存使用优化等,并且可以脱离设备完成模型的预处理。更详细的ATC介绍,可参看官方文档。ATC工具架构图。......原创 2022-07-29 20:25:44 · 2795 阅读 · 5 评论 -
机器翻译评价指标之BLEU原理介绍及代码实现
机器翻译评价指标之BLEU原理介绍及代码实现欢迎关注知乎: 世界是我改变的知乎上的原文链接一. 原理介绍BLEU(Bilingual Evaluation Understudy),即双语评估替补。所谓替补就是代替人类来评估机器翻译的每一个输出结果。Bleu score 所做的,给定一个机器生成的翻译,自动计算一个分数,衡量机器翻译的好坏。取值范围是[0, 1],越接近1,表明翻译质量越好。机器翻译的一大难题是,一句法语句子,可以有多种英文翻译,这些翻译都是非常好的那怎么去评估一个机器翻译系统的质量原创 2021-02-14 22:46:20 · 5103 阅读 · 4 评论 -
linux环境中配置cuda环境,指定gpu以及用量
1.在终端执行程序时指定GPU CUDA_VISIBLE_DEVICES=0 python your_file.py # 指定GPU集群中第一块GPU使用,其他的屏蔽掉CUDA_VISIBLE_DEVICES=1 Only device 1 will be seenCUDA_VISIBLE_DEVICES=0,1 Devices 0 and 1 will be visibleCUDA_VISIBLE_DEVICES="0,1" Sam...原创 2020-09-09 21:45:29 · 2004 阅读 · 0 评论 -
面试bert相关的问题
Bert的双向体现在什么地方?mask+attention,mask的word结合全部其他encoder word的信息Bert的是怎样实现mask构造的?MLM:将完整句子中的部分字mask,预测该mask词 NSP:为每个训练前的例子选择句子 A 和 B 时,50% 的情况下 B 是真的在 A 后面的下一个句子, 50% 的情况下是来自语料库的随机句子,进行二分预测是否为真...原创 2020-03-08 16:26:30 · 4789 阅读 · 3 评论 -
skip gram和cbow的优缺点
在cbow方法中,是用周围词预测中心词,从而利用中心词的预测结果情况,使用GradientDesent方法,不断的去调整周围词的向量。当训练完成之后,每个词都会作为中心词,把周围词的词向量进行了调整,这样也就获得了整个文本里面所有词的词向量。要注意的是, cbow的对周围词的调整是统一的:求出的gradient的值会同样的作用到每个周围词的词向量当中去。可以看到,cbow预测行为的次数跟整个文本的...原创 2020-01-14 21:31:35 · 3684 阅读 · 1 评论 -
Word2Vector之skip-gram原理
1.词嵌入(word2vec) 自然语言是一套用来表达含义的复杂系统。在这套系统中,词是表义的基本单元。顾名思义,词向量是用来表示词的向量,也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌入(word embedding)。2.为何不采用one-hot向量【如何使用one-hot】1. 假设词典中不同词的数量(词典大小)为NNN,每个词可以和从0到N−...原创 2019-12-18 14:31:22 · 447 阅读 · 0 评论 -
机器学习性能评估指标
分类混淆矩阵1True Positive(真正, TP):将正类预测为正类数. True Negative(真负 , TN):将负类预测为负类数. False Positive(假正, FP):将负类预测为正类数→→误报(Type I error). False Negative(假负 , FN):将正类预测为负类数→→漏报(Type II error).精确率(...原创 2019-10-09 15:47:45 · 438 阅读 · 0 评论 -
常见的损失函数(代价函数)
几种常见的损失函数1. 损失函数、代价函数与目标函数 损失函数(Loss Function):是定义在单个样本上的,是指一个样本的误差。 代价函数(Cost Function):是定义在整个训练集上的,是所有样本误差的平均,也就是所有损失函数值的平均。 目标函数(Object Function):是指最终需要优化的函数,一般来说是经验风险+结构风险,也就是(代价函数+正则化...原创 2019-08-19 15:38:58 · 1753 阅读 · 0 评论 -
学习率(Learning rate)的理解及调整依据
1. 什么是学习率(Learning rate)? 学习率(Learning rate)作为监督学习以及深度学习中重要的超参,其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。 这里以梯度下降为例,来观察一下不同的学习率对代价函数的收敛过程的影响(这里以代价函数为凸函数为例): 当学习率设置的过小时,收敛过程如下...原创 2019-08-02 19:46:41 · 6085 阅读 · 0 评论 -
神经网络中Batch和Epoch之间的区别是什么?
神经网络中Batch和Epoch之间的区别是什么?随机梯度下降法是一种具有大量超参数的学习算法。通常会使初学者感到困惑的两个超参数: Batch大小和Epoch数量,它们都是整数值,看起来做的事情是一样的。在这篇文章中,您将发现随机梯度下降中Batch和Epoch之间的差异。阅读这篇文章后,你会知道:1. 随机梯度下降是一种迭代学习算法,它使用训练数据集来更新模型。2. 批量大小是...原创 2019-08-02 19:18:29 · 1203 阅读 · 0 评论 -
torchtext使用教程
将一个纯文本数据(比如一个 txt 文本), 变成一个模型可接受的数据(比如一个 embedding 序列),就用到了torchtext。API一览 torchtext.datatorchtext.data.Example : 用来表示一个样本,数据+标签torchtext.vocab.Vocab: 词汇表相关torchtext.data.Datasets: 数...原创 2019-07-10 19:57:34 · 5300 阅读 · 4 评论 -
绝对最简单实用的kenlm语言模型的安装及使用
统计语言模型工具有比较多的选择,目前使用比较好的有srilm及kenlm,其中kenlm比srilm晚出来,训练速度也更快,号称单机版训练超级快,经过测试确实很快,支持大规模的语料训练,文件的输入格式一行行以空格隔开的文本。kenlm训练语言模型用的是传统的“统计+平滑”的方法。读者可以跳过第一部分直接看第二部分,第一部分我只是描述一下我遇到的一个坑。1.坑网上资料无非是各种弄个互相抄袭的...原创 2019-05-10 19:53:26 · 15308 阅读 · 8 评论 -
NLP文本化向量常用包gensim之word2vec和doc2vec
1.gensim的介绍gensim是nlp常用的包,能根据tf-idf,LDA,LSI等模型转化成向量模式,以便进一步处理,此外还实现了word2vec的功能,能够将单词转化为词向量。gensim包常用模块corpora:一种格式或约定,转化为二维矩阵,我这里用了此模块下的WikiCorpus 获取xml文件的原始数据 mode...原创 2018-11-05 10:16:36 · 1796 阅读 · 0 评论