
深度学习
vivian_ll
这个作者很懒,什么都没留下…
展开
-
论文笔记:Attention is All You Need
一步步解析Attention is All You Need!原创 2019-12-31 11:43:34 · 606 阅读 · 0 评论 -
bert今生前世全总结
一、Bert简介谷歌AI实验室的BERT深刻影响了NLP的格局。BERT之后,许多NLP架构、训练方法与语言模型如雨后春笋般涌现,比如谷歌的TransformerXL、OpenAI’s GPT-2、 XLNet、ERNIE2.0、 RoBERTa等。BERT团队对该框架的描述:BERT全称Bidirectional Encoder Representations from Transfor...原创 2019-11-25 12:14:54 · 1248 阅读 · 0 评论 -
论文笔记:Investigating LSTM for Punctuation Prediction
据悉,标准的语音识别系统的输出是缺乏标点和句边界的。标点预测(punctuation prediction)技术,又称句边界检测(sentence boundary detection)或句切分(sentence segmentation)技术,是一种典型的序列标注机器学习任务,是指在缺乏标点的文本(如语音识别抄本)中加入标点或对篇章文本进行句子单元切分,目的是提高文本的可懂度,降低人工阅读的负荷...转载 2019-10-14 09:54:19 · 590 阅读 · 0 评论 -
梯度消失、梯度爆炸及其表现和解决方法
一、梯度消失梯度消失出现的原因:在深层网络中,如果激活函数的导数小于1,根据链式求导法则,靠近输入层的参数的梯度因为乘了很多的小于1的数而越来越小,最终就会趋近于0,例如sigmoid函数,其导数f′(x)=f(x)(1−f(x))的值域为(0,1/4),极易发生这种情况。所以梯度消失出现的原因经常是因为网络层次过深,以及激活函数选择不当,比如sigmoid函数。梯度消失的表现:模型无法...原创 2019-09-17 11:44:10 · 24816 阅读 · 0 评论 -
二分类和多分类的性能评价指标及python计算
一、二分类real\predictPositiveNegativeTrueTPFNFalseFPTNTP、TN、FP、FN 中的第二个字母(列标首字母)是机器学习算法或模型预测的结果(正例:P、反例:N)TP、TN、FP、FN 中的第一个字母(行标首字母)是根据真实情况判断预测结果是否正确(正确:T、错误:F)即:正确地预测为正例:TP正确...原创 2019-08-15 16:05:29 · 28282 阅读 · 10 评论 -
pytorch中BiLSTM模型构建及序列标注
损失函数NLLLoss() 的 输入 是一个对数概率向量和一个目标标签. 它不会为我们计算对数概率,适合最后一层是log_softmax()的网络. 损失函数 CrossEntropyLoss() 与 NLLLoss() 类似, 唯一的不同是它为我们去做 softmax.可以理解为:CrossEntropyLoss()=log_softmax() + NLLLoss()...原创 2019-07-23 15:57:05 · 8712 阅读 · 2 评论 -
pytorch安装及基本使用(win10+CPU+Python3.6)
pytorch这两年越来越流行,定义网络结构简单,而且还很直观灵活,数据加载快。一、安装登陆pytorch官网。选择合适的环境:运行安装命令:pip3 install https://download.pytorch.org/whl/cpu/torch-1.1.0-cp36-cp36m-win_amd64.whlpip3 install https://download.p...原创 2019-06-18 16:19:27 · 15486 阅读 · 1 评论 -
Seq2Seq和Attention机制详解
一、Seq2Seq简介seq2seq模型最早可追溯到2014年的两篇paper [1, 2],主要用于机器翻译任务(MT)。seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。由于encoder与decode...原创 2019-04-12 11:29:20 · 5455 阅读 · 0 评论 -
Keras实现textCNN文本分类
CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的...原创 2018-07-24 19:22:52 · 18969 阅读 · 30 评论 -
使用textCNN进行文本分类的原理
CNN在计算机视觉领域取得了很好的结果,同时它可以应用在文本分类上面。 文本分类的关键在于准确提炼文档或者句子的中心思想,而提炼中心思想的方法是抽取文档或句子的关键词作为特征,基于这些特征去训练分类器并分类。因为CNN的卷积和池化过程就是一个抽取特征的过程,当我们可以准确抽取关键词的特征时,就能准确的提炼出文档或句子的中心思想。 卷积神经网络首次应用于文本分类可以说是在2004年Yoon Ki...原创 2018-06-27 20:56:39 · 22673 阅读 · 2 评论 -
Keras入门简介
CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的...原创 2018-06-27 15:03:51 · 4432 阅读 · 1 评论 -
论文笔记:A Sensitivity Analysis of Convolutional Neural Networks for Sentence Classification
A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification——Ye Zhang,Byron C. Wallace这篇paper的主要工作是对“Convolutional Naural Networks for Sentence ...原创 2018-07-02 15:12:44 · 2379 阅读 · 0 评论 -
论文笔记:Convolutional Neural Networks for Sentence Classification
Abstract作者在句子级的分类任务上做了一系列基于预训练词向量的CNN实验。 实验结果说明了:一个简单的(单层神经网络)、有一点超参数的调节(Filter的个数)和static word vector的CNN模型在多个benchmarks上效果都很好。通过微调学习特定任务的向量(task-specific vectors)可提升性能。 作者还提出了一个架构上的简单修改来允许t...原创 2018-07-02 14:54:41 · 1082 阅读 · 0 评论 -
TensorFlow四种Cross Entropy算法实现和应用
交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小转载 2017-07-24 11:44:35 · 388 阅读 · 0 评论 -
独热编码(One-Hot Encoding)及在CNN中的应用
比如 sex:[“male”, “female”] country: [‘china’,’USA’,’Japan’] 正常数字量化后: “male”, “female”用0,1表示; ‘china’,’USA’,’Japan’用0,1,2表示。 现在有3个样本: [‘male’,‘USA’], [‘male’,‘Japan’], [‘female’,’China’] 处理后:原创 2017-07-21 15:43:28 · 6460 阅读 · 0 评论