
神经网络
文章平均质量分 92
Sophia$
算法
展开
-
使用深度学习自动给图片生成文字描述
给图像加文字描述,涉及在给定的图像(例如照片)的情况下生成人类可读的文本描述。对于人类而言,这是一个容易解决的问题,但对于机器而言却非常具有挑战性,因为它既需要理解图像的内容,又需要将这种理解转化为自然语言。近年来,深度学习方法已经取代了传统方法,并针对自动生成图像描述(称为“字幕”)的问题取得了最新技术成果。在本文中,你将发现如何使用深度神经网络模型来自动生成图像描述。完成这篇文章后,你将了解:关于为图像生成文本描述所面临的挑战以及将计算机视觉和自然语言处理方面的突破相结合的需求。转载 2021-03-18 10:21:24 · 10775 阅读 · 1 评论 -
Win 10安装和使用OpenVINO指南-详细版
1. 安装OpenVINO安装包使用的是w_openvino_toolkit_p_2021.2.185.exe。资源可在这里下载。1.1 软件配置要求Microsoft Visual Studio* with C++ 2019, 2017, or 2015 with MSBuild CMake 3.4 or higher 64-bit Python 3.6 or higher这里我使用Python 3.7.9,Visual Studio 2019。这里要提醒,Python不要使用...原创 2021-01-17 21:31:33 · 1244 阅读 · 0 评论 -
Seq2Seq Attention输入输出维度分析-最详细
1. Attention注意力机制就是为了解决当解码的序列太长时,越到后面效果就越差。因为在未引入注意力机制之前,解码时仅仅只依靠上一时刻的输出而忽略的编码阶段每个时刻的输出(“称之为记忆”)。注意力机制的思想在于,希望在解码的时刻能够参考编码阶段的记忆,对上一时刻输出的信息做一定的处理(也就是只注意其中某一部分),然后再喂给下一时刻做解码处理。这样就达到了解码当前时刻时,仅仅只接受与当前时刻有关的输入,类似与先对信息做了一个筛选(注意力选择)。Encoder 把所有的输入序列编码成了一个c向量,然后使原创 2020-08-16 13:57:58 · 4899 阅读 · 1 评论 -
[PyTorch] RNN, LSTM, GRU中输入输出维度
本文中的RNN泛指LSTM,GRU等等CNN和RNN中batch_size的默认位置是不同的。CNN中:batch_size的位置是position 0. RNN中:batch_size的位置是position 1.1. 在RNN中输入数据格式:对于最简单的RNN,我们可以使用两种方式来调用torch.nn.RNNCell()。它只接受序列中的单步输入,必须显式的传入隐藏状态。torch.nn.RNN()可以接受一个序列的输入,默认会传入一个全0的隐藏状态,也可以自己申明隐藏状态传入。1..转载 2020-08-14 16:24:52 · 7353 阅读 · 0 评论 -
语音识别(一):介绍和简单实现
1. 语音识别介绍语音识别的最主要过程是:特征提取:从声音波形中提取声学特征; 声学模型(语音模型):将声学特征转换成发音的音素; 语言模型使用语言模型等解码技术转变成我们能读懂的文本。语音识别系统的典型结构如图1所示:图1 语音识别结构1.1 声学特征提取声音实际上一种波,原始的音频文件叫WAV文件,WAV文件中存储的除了一个文件头以外,就是声音波形的一个个点。如图2所示:图2 声音波形示意图要对声音进行分析,首先对声音进行分帧,把声音切分成很多小的片段,帧与帧之间有一定的交叠,转载 2020-07-24 17:09:56 · 17348 阅读 · 4 评论 -
使用CTC进行序列建模
下面是连结时序分类(Connectionist Temporal Classification,CTC)的一个可视化指导图,CTC是一种用于在语音识别,手写识别和其他序列问题中训练深度神经网络的算法。CTC的工作原理1.引言对于语音识别,我们有一个声音片段和对应校正后的转写文本数据集。不幸的是,我们不知道如何将文字记录中的字符与音频对齐,这使得训练语音识别器比最开始想的看起来更难。如果没有这种对齐, 我们就无法使用简单的方法。我们可以设计一个规则, 如 “一个字符对应于十个输入”。但人们的说话.转载 2020-07-24 13:07:43 · 1307 阅读 · 0 评论 -
ReLu(Rectified Linear Units)激活函数
1 传统Sigmoid系激活函数传统神经网络中最常用的两个激活函数,Sigmoid系(Logistic-Sigmoid 、Tanh-Sigmoid)被视为神经网络的核心所在。从数学上来看,非线性的Sigmoid函数对中央区的信号增益较大,对两侧区的信号增益小,在信号的特征空间映射上,有很好的效果。从神经科学上来看,中央区酷似神经元的兴奋态,两侧区酷似神经元的抑制态,因而在神经网络学...转载 2020-01-07 16:52:36 · 498 阅读 · 0 评论 -
Adaptive linear Element (Adaline)
1. 初级的神经网络单层感知器是用来处理线性可分问题。线性可分简单的说,如果二维平面上有两类点,然后可以用一条直线一刀切,类似可以扩展到n维。既然只有两类,就可以用01函数(hardlim)来作为刀,这里叫输出函数,也叫阈值函数。输入呢有n多,怎么办?sigma(和)一下,就只有一个了。老是和的话就总是一样的数值了,怎么办?那就加权吧,就是对每个x[i]都有一个特定权值w[i...转载 2019-12-20 16:19:16 · 518 阅读 · 0 评论 -
梯度消失和梯度爆炸
1.神经网络神经网络其实就是一个多层的感知器,我们下面来看下其结构:从上面的图例我们可以看出来,神经网络主要分为3种网络层输入层:就是数据输入神经网络的入口,比如MNIST是28*28的像素点集,则输入层就需要有28*28个输入神经元 + 一个代表偏移量的输入神经元(如图:左侧常量的神经元)隐藏层:就是神经网络的中间层,可能有一点抽象, 举个例子:一个人脸识别...转载 2019-12-05 11:47:20 · 814 阅读 · 0 评论