
deep learning
Takoony
天下大事,必作于细,天下难事,必作于易
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
dgl模块的in_subgraph
从dgl模块中抽取子图原创 2023-02-21 20:42:58 · 395 阅读 · 0 评论 -
huggingface中的encode_plus返回的attention_mask的理解
attention_mask原创 2022-07-17 23:30:04 · 1022 阅读 · 1 评论 -
bert模型训练的两种方式
bert原创 2022-03-05 16:24:21 · 1420 阅读 · 0 评论 -
迁移学习与微调的区别
一、迁移学习: 1、从字面意义上理解是知识转移的学习方法,指一种学习方法;类比机器学习、深度学习等等概念; 2、把已训练好的模型参数迁移到新的模型来帮助新模型训练二、微调: 1、从字面意义上理解是小小的调整;指的是一种实现技术或者工具 2、对训练好的模型的参数进行小小的调整;三、迁移学习与微调的关系 在迁移学习过程中,直接拿来在新场景中使用,一般是不会有很好的效果,或者说要取得更优的效果,是需要作一些适配或者改变,而微调是实现迁移学习中的一种工具; 适配或者调整的原创 2022-03-05 11:33:10 · 2780 阅读 · 1 评论 -
Transductive和Inductive
关于Transductive和Inductive,维基百科上有一段简洁扼要的定义:Transduction is reasoning from obeserved, specific (training) cases to specific (test) cases. In contrast, induction is reasoning from obeserved training cases to gerneral rules, which are then applied to the ...转载 2021-05-12 09:45:17 · 880 阅读 · 0 评论 -
国内HuggingFace,预训练模型镜像使用
Hugging Face Transformers是自然语言处理领域的重要开源项目,提供了基于通用架构(如 BERT,GPT-2,RoBERTa)的数千个预训练模型,并提供了 PyTorch 和 TensorFlow 的良好互操作性。我们镜像了 Hugging Face Model Hub,为国内用户下载预训练模型数据提供便利。使用方法注意:transformers > 3.1.0的版本支持下面的mirror选项。只需在from_pretrained函数调用中添加mirro...转载 2021-05-10 14:12:23 · 19999 阅读 · 6 评论 -
glue与clue的意思
glue:General Language Understanding Evaluationclue:ChineseLanguage Understanding Evaluation可以理解为clue是glue其中的一种语言。原因如下:2018 年,来自纽约大学、华盛顿大学、DeepMind 机构的研究者创建了一个多任务自然语言理解基准和分析平台——GLUE(General Language Understanding Evaluation)。GLUE 包含九个英文数据集,目前已经成为衡..原创 2021-03-01 09:41:39 · 544 阅读 · 0 评论 -
Pytorch的tensor数据类型
原创 2021-02-25 11:52:34 · 259 阅读 · 0 评论 -
pytorch model.eval()的作用
本质上是将dropout作用去掉及不使用bn计算。这两个仅仅在训练时需要用到。原创 2021-02-23 10:00:45 · 493 阅读 · 0 评论 -
pytorch 不同设备下保存和加载模型,需要指定设备
原创 2021-02-23 09:56:11 · 379 阅读 · 0 评论 -
nvidia-smi命令显示NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver
1、在aicloud虚拟机查看硬件信息,显示共0B,剩0B。从这里可以看出,能找到硬件设备,但无法正确读取硬件相关信息,即证明驱动问题导致的。2、nvidia-smiNVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver。结论:显卡驱动存在问题。以前重启大法屡试不爽,现在失灵了。从nvidia官网下载相应版本,直接更新驱动,就解决了此问题。...原创 2021-02-22 16:49:24 · 355 阅读 · 1 评论 -
CentOS下显卡驱动安装的相关思考
本人电脑与这个不一样。本人电脑没有执行这个 ,没有执行成功,可能 是因为离线状态。来源:https://zhuanlan.zhihu.com/p/74491299转载 2021-02-22 16:33:10 · 142 阅读 · 0 评论 -
显卡、显卡驱动、cuda 之间的关系是什么?
如图所示:转载 2021-02-22 15:11:04 · 505 阅读 · 0 评论 -
NLP模型压缩六大方法介绍
原创 2020-11-24 23:11:58 · 1628 阅读 · 0 评论 -
char-embedding是如何输入到模型的
问题来源:我输入一句话,那么这句话首先是会被分成一个个word,那么这个word会被表示成一个个character,这些个character会表示成一个one-hot向量,那么这些向量是如何共同表示原来的word呢?首先来看一张图:...原创 2020-08-16 23:10:41 · 1029 阅读 · 0 评论 -
几乎最全的中文NLP资源库
NLP民工的乐园The Most Powerful NLP-Weapon ArsenalNLP民工的乐园: 几乎最全的中文NLP资源库词库 工具包 学习资料在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。很多包非常有趣,值得收藏,满足大家的收集癖! 如果觉得有用,请分享并star,谢谢!长期不定时更新,欢迎watch和fork!涉及内容包括但不限于:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取...原创 2020-05-12 10:10:38 · 37192 阅读 · 3 评论 -
skip-gram模型结构
https://www.kdnuggets.com/2018/04/implementing-deep-learning-methods-feature-engineering-text-data-skip-gram.html原创 2020-04-11 19:54:18 · 379 阅读 · 0 评论 -
文本相似度量的非常好的ESIM算法
论文来源:TACL 2017论文链接:Enhanced LSTM for Natural Language Inference今年不知道怎么回事,以短文本匹配为赛题的数据挖掘比赛层出不穷,自从Quora Question Pairs | Kaggle开始,到天池CIKM AnalytiCup 2018 | 赛制介绍,再到ATEC蚂蚁开发者大赛,还有拍拍贷AI开发平台-第三届魔镜杯大赛。。。...转载 2020-04-06 11:30:24 · 3536 阅读 · 1 评论 -
CMU算法新教材的获取方法
第一步:首先进入https://www.cs.cmu.edu/~mgormley/courses第二步:查找相应的课程,并点击进入,如下所示:第三步、 这里获取材料没有直接的链接,在后面个slides就可以了,如果有相应的ppt,这里就能看到...原创 2020-04-05 19:48:52 · 345 阅读 · 0 评论 -
拼写纠错算法
加速的方法:基于输入单词计算编辑距离在1到2左右,生成一个候选集,然后再去词典中查找是否出现。原创 2020-04-04 13:46:22 · 669 阅读 · 0 评论 -
NLP 的EDA数据增强技术
1. 同义词替换(SR: Synonyms Replace):不考虑stopwords,在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。2. 随机插入(RI: Randomly Insert):不考虑stopwords,随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置。该过程可以重复n次。3. 随机交换(RS: Randomly Swap)...原创 2020-03-20 15:26:32 · 1034 阅读 · 0 评论 -
注意力机制在softmax时需要除以一个根号8的作用
推断:从数学公式来看,起到一个缩放的效果,那么体现到注意力值上,我个人的理解是可以分散注意力而不至于过于集中某个token实验:描述:两组数据,原始得分数据为【8,16,32】,缩放后的数据【1,2,3】,最终看计算出来的值的差别import numpy as np def softmax(x, axis=1): # 计算每行的最大值 row_max = x.ma...原创 2020-03-10 12:46:25 · 1352 阅读 · 0 评论 -
BERT Word Embeddings 教程
本篇文章译自 Chris McCormick的BERT Word Embeddings Tutorial在这篇文章,我深入研究了由Google的Bert生成的word embeddings,并向您展示了如何通过生成自己的word embeddings来开始Bert。这篇文章有两种形式——一种是博客文章,另一种是colab的notebook。介绍历史2018年是NLP取得突破性进...转载 2020-02-28 09:57:51 · 4477 阅读 · 2 评论 -
ALBERT模型的理解
这里面提到dropout会显著减少内存消耗,原因在于使用dropout会占用临时内存。...原创 2020-02-24 00:00:33 · 2287 阅读 · 0 评论 -
Variable W already exists, disallowed. Did you mean to set reuse=True or reuse=tf.AUTO_REUSE……
Variable W already exists, disallowed. Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope? Originally defined at解决方案:加入:tf.reset_default_graph()我的情况是:模型代码在文档里面,用Notebook进行加载,发现重复...原创 2019-12-05 11:31:45 · 4867 阅读 · 4 评论 -
softsign与tanh的比较
先来看两图:容易看出tanh比softsign更容易饱和softsign的导数tanh的导数:Softsign 是 Tanh 激活函数的另一个替代选择。就像 Tanh 一样,Softsign 是反对称、去中心、可微分,并返回-1 和 1 之间的值。其更平坦的曲线与更慢的下降导数表明它可以更高效地学习,比tanh更好的解决梯度消失的问题。另一方面,导数的计算比 Tanh 更麻烦;在实践中,可以深度用...原创 2018-06-12 15:33:29 · 17314 阅读 · 3 评论 -
rnn参数共享的原因之一
harry is boy and harry is very nice参数共享的作用就是能在第一个位置识别harry出来,那么同样在第五个位置也能将harry识别出来;因为相同的输入和相同的参数,就会有相同的结果;比如说卷积神经网络,卷积参数共享,换个说法,一个固定的卷积参数必然专门识别某种特征,比如说边框,参数共享就说明该卷积能在图片不同的地方探测到该特征;所以说参数共享本质上就是说明该模块功能...原创 2018-06-13 09:31:21 · 5695 阅读 · 0 评论 -
lstm的stateless与statefull的区别
stateful代表除了每个样本内的时间步内传递,而且每个样本之间会有信息(c,h)传递,每个样本指的是一个完整的序列,比如股票预测,时间步为20,特征数为10,数据为20*10;而stateless指的只是样本内的信息传递;下面这段话就可以很好的理解:stateful LSTM:我想根据一篇1000句的文章预测第1001句,每一句是一个sample。我会选用stateful,因为这文章里的100...原创 2018-06-21 16:21:56 · 2982 阅读 · 0 评论 -
dropout与lstm的结合使用
1、dropout是神经网络中最有效的正则化方法;2、传统的dropout在rnn中效果不是很好;dropout在rnn中使用的效果不是很好,因为rnn有放大噪音的功能,所以会反过来伤害模型的学习能力;3、在rnn中使用dropout要放在时间步的连接上,即cell与cell之间传递,而不是神经元;对于rnn的部分不进行dropout,也就是说从t-1时候的状态传递到t时刻进行计算时,这个中间不进...原创 2018-06-21 17:29:20 · 23925 阅读 · 1 评论 -
batchnorm与dropout的区别
Dropout is mostly a technique for regularization. It introduces noise into a neural network to force the neural network to learn to generalize well enough to deal with noise. (This is a big oversimpli...原创 2018-06-22 11:15:28 · 1847 阅读 · 0 评论 -
多分类可以分成多个独立的模型来训练
比如说分类类别有1000种,先基于所有数据训练一个一般的网络模型,可以处理所有这些类;然而发现有些混淆的类,在算法上 跟蘑菇极其相似,无法通过这个一般的模型来判断;所以需要做一些专门的训练,丰富了蘑菇的数据集与偶尔的随机图像;我们可以训练50个这样的模型,可以达到良好的不同种类的分类,得到相当显著的正确率增加;当时我们可以很好的将它提炼成一个单一的模型,但我们没有过分追求,最终我们只是机制上训练5...原创 2018-06-15 08:58:23 · 2460 阅读 · 0 评论 -
减少训练成本的一个方法
因为大多数模型对权重参数可以容忍非常低精度,比如说8字节或是更低;相比64字节,内存与cpu消耗可以降低到原来的四分之一原创 2018-06-15 09:01:23 · 422 阅读 · 0 评论 -
softened softmax vs softmax
如图所示:两者的区别如下:这样做就可以得到这个概率分布更柔和的表示实际上可以多个硬指标加上软指标进行训练,然后训练目标会匹配这两种类型的某些功能;图中谷歌大神说这种方法在一个大的语音模型上做的实验,效果出乎意料的好;从另一个角度来讲,所以软指标是一种相当好的正则化技巧;软指标相比硬指标而言提供了更多的信息,训练速度也快很多,训练时间也要短得多;...原创 2018-06-15 09:44:17 · 390 阅读 · 0 评论 -
需要正则化的一个判断
x轴可以是更强大的模型,也可以是更多的训练次数,y轴是误差值;红色是验证误差或测试误差,蓝色是训练误差;当x值到了某个点后,就开始过拟合了;如果锁定其他因素不变,单看模型的power;开始模型的power不断的增加会让整个学习变得越来越好;但到了一定程度后,就会变得过拟合了;如果锁定其他因素不变,单看训练的迭代次数;开始随着训练次数的不断增加会让整个学习变得越来越好;但到了一定程度后,就会变得过拟...原创 2018-06-26 09:07:23 · 334 阅读 · 0 评论 -
Deep Residual Learning for Image Recognition个人有感
问题:当网络深度到一定深度后,网络层数越深,纯神经网络的效果呢,如图所示?从理论上来讲,神经网络越深,其学习能力越强;但实际上却面临着优化难题;不是梯度消失也不是梯度爆炸导致的,因为使用了BN;论文作者推断是因为深度网络面临着随着层数增加,而出现指数级下降的收敛速度,换句话说,需要非常多的训练次数;这个优化难题留在未来解决;针对这个超深度网络,作者独创了一种名为residual learning,...原创 2018-06-26 15:54:38 · 522 阅读 · 0 评论 -
深入了解softmax
1、该函数将结果转换成概率值;2、将所有结果转换成正数,通过exp函数3、放大得分最高的结果,通过exp函数(它的反函数log可以缩小),即接近最大函数max4、soft仍取多个结果,hardmax等同于max,取一个结果...原创 2018-06-20 08:59:24 · 360 阅读 · 0 评论 -
VC维的一个理解
从深度学习书中记录:统计学习理论提供了量化模型容量的不同方法。在这些方法中,最有名的是Vapnik-Chervonenkis维度,简称VC维。个人理解:这句话表明VC维用来衡量模型的容量,或者说是power,即模型的拟合能力;以VC 维度量二元分类器的容量,VC维定义为该分类器能够分类的训练样本的最大数目。假设存在m个不同的x点的训练集,分类器可以任意地标记该m个不同的x点,VC维被定义为m的最大...原创 2018-07-10 09:55:56 · 6914 阅读 · 0 评论 -
指数衰减学习率的意义与使用方法
它的意义在于动态调节学习率,最本质的作用当优化到了一定的瓶颈后,出现当前的学习率已不适用于优化,相对而言,学习率偏大,迈的步子较大,到不了底部;即需要降低学习速率;使用方法:self.global_step = tf.Variable(0, trainable=False)#代表当前迭代次数,需要从session会话中取值,然后将这个参数的值传递到learning_rate与tf.train.RM...原创 2018-07-11 10:09:17 · 3258 阅读 · 0 评论 -
指数衰减学习率的staircase
import tensorflow as tf;import numpy as np;import matplotlib.pyplot as plt;learning_rate = 0.1decay_rate = 0.96global_steps = 1000decay_steps = 100global_ = tf.Variable(tf.constant(0))c = tf.train.exp...转载 2018-07-11 10:11:33 · 1469 阅读 · 0 评论 -
优化函数中minimize中的globel_step作用
import tensorflow as tf;import numpy as np;x = tf.placeholder(tf.float32, shape=[None, 1], name='x')y = tf.placeholder(tf.float32, shape=[None, 1], name='y')w = tf.Variable(tf.constant(0.0))global_ste...原创 2018-07-11 15:01:11 · 2678 阅读 · 0 评论