深度学习之个人总结
文章平均质量分 86
深度学习可以简单地理解为多层神经网络,但是却不仅仅是神经网络。深度学习将每一层的输出作为下一层的输入特征,通过将底层的简单特征组合成高层的更抽象特征来进行学习……
==樛木==
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
文本相似度算法:文本向量化+距离公式
1. 文本向量化1.1 词袋模型词袋模型,顾名思义,就是将文本视为一个 “装满词的袋子” ,袋子里的词语是随便摆放的,没有顺序和语义之分。1.1.1 词袋模型的步骤第一步:构造词典根据语料库,把所有的词都提取出来,编上序号第二步:独热编码,D维向量记词典大小为D,那么每个文章就是一个D维向量:每个位置上的数字表示对应编号的词在该文章中出现的次数。1.1.2 词袋模型的缺点只...原创 2019-04-03 16:50:12 · 2906 阅读 · 0 评论 -
【DL小结5】Transformer模型与self attention
1 提出背景针对attention model不能平行化,且忽略了输入句中文字间和目标句中文字间的关系,google在2017年《Attention is all you need》一文提出了Transformer模型。Transformer最大的特点就是完全抛弃了RNN、CNN架构。模型中主要的概念有2项:1. Self attention(代替RNN) :解决输入句中文字间和目标句中文字间...原创 2019-03-09 20:19:06 · 993 阅读 · 0 评论 -
【DL小结4】seq2seq与attention机制
seq2seq概述seq2seq模型是以编码(Encode)和解码(Decode)为代表的架构方式,顾名思义是根据输入序列X来生成输出序列Y。encode意思是将输入序列转化成一个固定长度的向量(语义向量,context vector),decode意思是将语义向量解码成输出序列。编码阶段纯粹的RNN/LSTM/GRU解码阶段由上图可以发现Seq2seq中Decoder的公式和...原创 2019-03-09 16:42:47 · 1205 阅读 · 0 评论 -
【DL小结1】DL入门
1.损失函数和激活函数的选择1.1 均方差损失函数+sigmoid激活函数sigmoid(z)=11+e−zsigmoid(z)=\frac{1}{1+e^{-z}}sigmoid(z)=1+e−z1sigmoid′(z)=sigmoid(z)(1−sigmoid(z))sigmoid^{'}(z)=sigmoid(z)(1-sigmoid(z))sigmoid′(z)=...原创 2018-11-19 11:05:13 · 810 阅读 · 0 评论 -
【DL小结2】CNN前向、反向传播及常用结构
1.结构若干卷积层(+RELU激活函数: max(0,x))+若干池化层(无激活函数)+全连接层(sogmoid/tanh激活函数,最后一层是softmax输出层)2.前向传播算法原创 2018-11-19 14:39:11 · 1106 阅读 · 0 评论 -
基于DL的目标检测技术:R-CNN、Fast R-CNN、Faster R-CNN
目标检测:在给定的图片中精确找到物体所在位置,并标注出物体的类别。目标检测=图像识别(CNN)+定位(回归问题/取图像窗口)遇到多物体识别+定位多个物体?用选择性搜索找出可能含有物体的框(候选框)判定得分。这些框之间是可以互相重叠互相包含的,从而避免暴力枚举的所有框了。1.R-CNN步骤一:训练(或者下载)一个分类模型(比如AlexNet)步骤二:对该模型做fine-tuning修...原创 2018-11-19 19:00:38 · 432 阅读 · 0 评论 -
【DL小结3】RNN与LSTM
1.RNN针对问题:训练样本是序列数据模型思想:循环反馈模型特点:(1)随着序列的推进,前面的隐层将会影响后面的隐层(2)U、V、W权值共享(3)每个输入只与它本身的那条路线建立权连接,不会和别的神经元连接。模型缺点:梯度消失,无法处理长序列数据(解决:LSTM、GRU)RNN的前向传播基于时间反向传播BPTT2.LSTM针对RNN梯度消失问题,对序列索引位置t的隐...原创 2018-11-20 09:35:39 · 680 阅读 · 0 评论 -
自编码模型autoencoder
AutoEncoder 是前馈型神经网络的一种,是为了学习到输入数据的相关性表示的一种方法。曾经主要用于数据的降维或者特征的抽取,而现在也被扩展用于生成模型中。区别于其他前馈型神经网络:其他前馈型神经网络关注输出层和错误率不同,而AutoEncoder关注的是隐藏层;其他前馈型神经网络一般比较深,而AutoEncoder通常只有一层隐藏层。...原创 2018-11-20 10:41:30 · 504 阅读 · 0 评论 -
词向量(从one-hot到word2vec)
词向量的意思就是通过一个数字组成的向量来表示一个词,这个向量的构成有很多种方法,如one-hot编码、基于共现矩阵的方式、word2vec、动态词向量ELMo等。一、one-hot向量优势:简单易懂、稀疏存储不足:维度灾难、词汇鸿沟(向量之间都是孤立的)二、基于共现矩阵的方式上述矩阵是一个n*n的对称矩阵X,矩阵维数随着词典数量n的增大而增大,可以使用奇异值分解SVD将矩阵维度降低...原创 2018-12-26 10:30:41 · 7089 阅读 · 1 评论 -
NLP特征工程(待完善细节)
参考:https://blog.youkuaiyun.com/m0epNwstYk4/article/details/78861537最近在做文本的特征工程构建,陆陆续续搜集到一些公认的对文本表征能力比较强的特征,比如频次法、tf-idf、互信息方法、N-Gram、Word2Vec等,文本特征包含以上这些但也不限于这些。频次法频次法,顾名思义,十分简单。它记录每篇文章的次数分布,然后将分布输入机器学习模...原创 2018-12-27 14:53:24 · 1410 阅读 · 1 评论 -
语言模型总结(待完善)
1.n元语法模型(n-gram)由于n-gram语言模型的优异性能和高效实现,其作为统治性的语言建模方法已经有数十年了。缺点:一是数据稀疏性,鲁棒性参数估计需要复杂的平滑技术。二是在于n阶马尔科夫假设,预测的词概率值依赖于前n-1个词,这样更长距离上下文依赖就被忽略了。2.循环神经网络语言模型(RNNLMs)RNNLMs将每个词映射到一个紧凑的连续向量空间,该空间使用相对小的参数集...原创 2019-01-26 08:23:44 · 794 阅读 · 0 评论
分享