深度学习
文章平均质量分 92
谁是momo子
拖延症患者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RNN与LSTM系列(三)——RNN和变种LSTM的前向和反向传播
转载自:http://blog.youkuaiyun.com/u011414416/article/details/46709965 以下内容主要引自Alex Graves写的Supervised Sequence Labelling with Recurrent Neural Networks 一书。 (http://www.springer.com/cn/book/9783642247965)...转载 2018-06-25 20:35:04 · 721 阅读 · 0 评论 -
可解释性(1)—— lstm可视化工具LSTMVis
一、背景深度模型成绩斐然,然而它就像一个黑箱子一样捉摸不透,使用者不知道它到底学到了些什么,也不知道它有什么凭据作出那样的预测,更不知道如何根据bad case去调特征,虽然能总结出几类bad case,bad case也有一些特定的pattern,但对样本作出相应的调整总是有点隔靴搔痒,难解其中真谛。伟大的研究者们开始进行可解释性研究,针对LSTM,目前有词向量的聚类可视化,hidden...原创 2019-09-05 13:54:46 · 6169 阅读 · 4 评论 -
fasttext源码解析
转载自知乎作者:张晓辉链接:https://zhuanlan.zhihu.com/p/64960839 https://zhuanlan.zhihu.com/p/65687490来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。最近花了一些时间通读了fb的fasttext的源码。远离了c++好长一段时间,猛地一看c++,太亲切了。简单的说,f...转载 2019-06-23 16:32:35 · 2369 阅读 · 0 评论 -
Graph Embedding(一)—— DeepWalk的原理及实现
1. 概念介绍图:是一种非常常用的结构,包含边和节点;Graph Embedding:图中的每个节点会对应一个词向量,某两个节点挨的越近(或者联系越紧密、或者共同的边越多),词向量在词向量空间里也就越近(想想单词的词向量的定义,和这差不多,就是把文字中的单词迁移到图的节点了)2. deepwalk想想单词的词向量训练的时候,是不是根据文本序列,生成中心词和上下文词列表分别作为输入输...原创 2019-05-21 22:41:53 · 6306 阅读 · 1 评论 -
词向量训练skipgram的python实现
skipgram的原理及公式推倒就不详细说了,主要记录一下第一个正向传播和反向传播都自己写的神经网络,也终于体验了一把负采样对于词向量训练速度的惊人提升,感人!虽然最终的时间复杂度依然较高,不过我正在研究同样使用python的gensim为啥这么快的原因!(明天有时间会把)数据和代码放在本人的github里,写的比较搓,待改进...1.工具介绍python: 3.6电脑:mac本地...原创 2019-05-21 22:41:40 · 3851 阅读 · 2 评论 -
文献阅读笔记—Universal Language Model Fine-tuning for Text Classification
迁移学习在nlp领域的应用之pretrain language representation,四连载,建议按顺序看,看完对该方向一定会非常清楚的!(一)ELMO:Deep contextualized word representations(二)Universal Language Model Fine-tuning for Text Classification(三)openAI ...原创 2018-11-05 21:42:25 · 4591 阅读 · 2 评论 -
文献阅读笔记—BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding
迁移学习在nlp领域的应用之pretrain language representation,四连载,建议按顺序看,看完对该方向一定会非常清楚的!(一)ELMO:Deep contextualized word representations(二)Universal Language Model Fine-tuning for Text Classification(三)openAI ...原创 2018-11-07 13:13:52 · 3202 阅读 · 0 评论 -
文献阅读笔记—Improving Language Understanding by Generative Pre-Training
迁移学习在nlp领域的应用之pretrain language representation,四连载,建议按顺序看,看完对该方向一定会非常清楚的!(一)ELMO:Deep contextualized word representations(二)Universal Language Model Fine-tuning for Text Classification(三)openAI ...原创 2018-11-06 22:03:01 · 8029 阅读 · 1 评论 -
文献阅读笔记—Deep contextualized word representations
迁移学习在nlp领域的应用之pretrain language representation,四连载,建议按顺序看,看完对该方向一定会非常清楚的!(一)ELMO:Deep contextualized word representations(二)Universal Language Model Fine-tuning for Text Classification(三)openAI ...原创 2018-10-26 16:41:28 · 4752 阅读 · 2 评论 -
文献阅读笔记—Multiway Attention Networks for Modeling Sentence Pairs
1. 问题描述这是一篇计算两个句子间相似度的文章,用于句子p是否是句子q的另一种表达(paraphrase identification)、句子p是否可以从句子q中推断出(natural language inference)、句子p是否是句子q的答案(Answer Sentence Selection)的问题中。在上述三方面都做了实验,如下图所示:2. 以前的解决方法几创新点阶段...原创 2018-10-25 23:18:06 · 831 阅读 · 0 评论 -
深度学习最优化(四)—— 动量法/Nesterov/Adagrad/Adadelta/RMSprop/Adam/Nadam
1. SGD现在的SGD一般都指小批量梯度下降,即每一次迭代计算mini-batch的梯度,然后对参数进行更新。 其中是模型参数,是模型目标函数,是目标函数的梯度,是学习率。难点(缺点): (1)学习率的选择。过低收敛缓慢,过高无法收敛。 (2)“...原创 2018-10-16 20:53:55 · 5117 阅读 · 0 评论 -
RNN与LSTM系列(一)——LSTM反向传播公式推导
转载自https://blog.youkuaiyun.com/wjc1182511338/article/details/792855030 LSTM相对于rnn的优势The Problem of Long-Term DependenciesOne of the appeals of RNNs is the idea that they might be able to connect previ...转载 2018-10-08 16:10:21 · 3929 阅读 · 0 评论 -
RNN与LSTM系列(二)——LSTM的参数个数
转载:https://www.cnblogs.com/wushaogui/p/9176617.html目录:1. LSTM简单介绍 2.简单假设样例 3.神经元分析 3.1忘记门层 3.2细胞状态 3.3输出层 3.4总结 4.测试1.LSTM简单介绍 ...转载 2018-10-08 13:49:14 · 19042 阅读 · 7 评论 -
文献阅读—跨语言词向量—无监督
上一篇博客将了有监督的跨语言词向量训练,这篇博客将无监督的跨语言词向量《A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings》。1. 初步构想和分别表示两类语言中独立训练好的词嵌入矩阵,需要自己先训练好,或者拿别人现成的。其中每行代表一个词的词向量,每一列...原创 2018-09-15 22:37:16 · 1685 阅读 · 5 评论 -
文献阅读—跨语言词向量—有监督
1. 问题描述跨语言词向量解决什么问题呢?当我们有英文标注数据,在英文数据上训练好模型,但是我们没有中文标注数据去训练模型,怎么办?跨语言词向量就是将英文词向量和中文词向量映射到一个空间里,这样相当于中英文数据都只是整体数据的一部分,我拿整体数据中的一部分(即英文数据)做训练,拿整体数据中的另一部分(即中文数据)做测试,所以就不需要重新训练模型,解决了中文标注数据缺失的问题。啊说的有点多了,西...原创 2018-09-15 18:40:29 · 1575 阅读 · 1 评论 -
文献阅读笔记—Attention is ALL You Need
本文主要是参考https://yq.aliyun.com/articles/342508?utm_content=m_39938https://mchromiak.github.io/articles/2017/Sep/12/Transformer-Attention-is-all-you-need/#positional-encoding-pe将互相缺少的融合到一起,略微加了点其他东...原创 2018-09-03 19:35:55 · 3082 阅读 · 0 评论 -
可解释性(2)—— RNN可视化工具RNNVis
一、背景解释RNN为什么那么困难: 1. hidden state多,更新hidden state所用的参数更多。 2.使用RNN处理的文本等序列数据,本身语义信息繁多,难以解释。 3.输入一个单词会导致很多hidden state产生变化,而一个hidden state又受很多单词影响,多对多的关系难以分析。ok,RNNVis[1]自称是解决第3...原创 2019-09-07 22:31:07 · 2956 阅读 · 4 评论
分享