- 博客(8)
- 收藏
- 关注
原创 ELMo、GPT、BERT
为何预训练语言模型能够达到如此好的效果?主要有如下几点:word2vec等词向量模型训练出来的都是静态的词向量,即同一个词,在任何的上下文当中,其向量表征是相同的,显然,这样的一种词向量是无法体现一个词在不同语境中的不同含义的。我们采用预训练模型来代替词向量的关键在于,其能够更具上下文的不同,对上下文中的词提取符合其语境的词表征,该词表征向量为一个动态向量,即不同上下文输入预训练模型后,同一个词的词表征向量在两个上下文中的词表征是不同的。预训练任务简介总的来说,预训练模型包括两大类:自回归语言模
2022-02-28 20:52:28
366
原创 RNN;LSTM;GRU
RNN由于RNN在所有的时间步中共享参数(U,V,W),因此每个输出的梯度不仅取决于当前时间步长的计算,而且还取决于以前的时间步长。 例如,为了计算t=4处的梯度,我们需要反向传播3个步骤并对梯度求和(链式法则),这叫做时间反向传播(BPTT)。RNN 中同样的权重在各个时间步共享,最终的梯度 g = 各个时间步的梯度 g_t 的和。所以RNN 中总的梯度是不会消失的。RNN 所谓梯度消失的真正含义是,梯度被近距离梯度主导,导致模型难以学到远距离的依赖关系。梯度消失:RNN梯度消失是因为激活函数tan
2022-02-25 19:30:19
623
原创 词向量Word Embedding
词向量词向量做的事情就是将词表中的单词映射为实数向量。one-hot编码one-hot对每个词进行编号,假设词表的长度为n,则对于每一个词的表征向量均为一个n维向量,且只在其对应位置上的值为1,其他位置都是0。问题:1.有序性问题:它无法反映文本的有序性。2.语义鸿沟:其无法通过词向量来衡量相关词之间的距离关系,无法反映词之间的相似程度。3.维度灾难:高维情形下将导致数据样本稀疏,距离计算困难,这对下游模型的负担是很重的。统计语言模型从统计语言模型开始,来解决无序性的这个问题。Ngram
2022-02-23 15:05:29
483
原创 激活函数整理
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录激活函数Sigmoid函数tan函数ReLU函数Leaky ReLU函数(PReLU)ELU (Exponential Linear Units) 函数前面的网络层比后面的网络层梯度变化更快是什么意思?这篇文章梯度消失与梯度爆炸的原因以及解决方案------https://blog.youkuaiyun.com/keeppractice/article/details/107208672激活函数Sigmoid函数缺点:1.如果我
2022-02-19 17:41:20
391
原创 反向传播整理(未完成)
1.反向传播为什么要求导通过对损失函数求导(求最小值),得到使得当前损失最小的参数值。2.反向传播求导的目的是什么?更新了什么3.链式法则链式法则:路径上的偏导数做乘法,不同路径上的做加法。比如,从a到e的路径只有一条,其路径上的所有偏导数做乘法;...
2022-02-16 21:19:37
333
原创 机器学习:谱聚类
谱聚类可以看作是一种基于图的聚类方法,谱聚类涉及到的两个问题:怎么构建图 怎么切分子图(图的最优分割问题)图的最优分割问题谱聚类是一种通过图的聚类算法,在我们构建图后,需要对图进行最优分割。最优分割:子图内边权重高;子图间边权低(根据高斯核公式,x与x'的距离越远,得到的数值越小;而我们希望同一子图的点距离更近)损失函数:以上我们希望子图间的边权越小越好,子图内边权越大越好。根据以上两点定义损失函数。1.子图与子图之前的链接权如下A,B是图中被分开的子图损失函数则.
2021-08-23 17:00:29
269
原创 No module named _sqlite3
linux多版本python无法导入sqlite3的解决方法由于是在公司的服务器下,yum和sudo命令都无法使用。尝试了一下几种办法后,sqlite3安装+python重编译下载sqlitewget https://www.sqlite.org/2017/sqlite-autoconf-3170000.tar.gz --no-check-certificate解压该文件tar -zxvf sqlite-autoconf-3170000.tar.gzcd进入cd sqlite-
2021-08-04 15:46:22
389
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人