
Deep Learning
文章平均质量分 70
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
超参优化工具总结(2)——Hyperopt
Homepage:https://github.com/hyperopt特性:Hyperopt是一个sklearn的Python库,在搜索空间上进行串行和并行优化,搜索空间可以是实值,离散和条件维度(real-valued, discrete, and conditional dimensions.)。它支持跨多台机器的并行化,并使用 MongoDb 作为存储超参数组合结果的中心数据库。使用方法及配置使用方法:https://github.com/hyperopt/hyperopt#gett转载 2021-05-06 17:49:00 · 923 阅读 · 0 评论 -
快速神经网络的训练算法LARS/LAMB工作原理 --UC Berkeley在读博士生尤洋
快速神经网络的训练算法 --UC Berkeley博士尤洋快速神经网络的训练算法 --UC Berkeley博士尤洋为什么深度学习很慢?如果我们利用并行计算,怎样才能完美的利用大量的processor?为什么large batch size会引起精度降低?新优化器参考:快速神经网络的训练算法 --UC Berkeley博士尤洋本片文章介绍的两种算法不仅可以优化并行计算,在普通硬件环境中运行也是有效的。算法是由UC Berkeley博士尤洋开发。在固定精度的情况下,新算法可以更快的达到要求转载 2021-04-10 16:37:08 · 674 阅读 · 0 评论 -
####好好好####详解深度学习中的 Normalization,不只是 BN
本文作者Juliuszh,本文首发于知乎专栏【机器学习炼丹记】,AI 研习社获其授权转载。深度神经网络模型训练之难众所周知,其中一个重要的现象就是 Internal Covariate Shift. Batch Norm 大法自 2015 年由 Google 提出之后,就成为深度学习必备之神器。自 BN 之后, Layer Norm / Weight Norm / Cosine Norm 等也横空出世。本文从 Normalization 的背景讲起,用一个公式概括 Normalization 的基本思转载 2021-03-04 18:17:44 · 319 阅读 · 1 评论 -
从ReLU到GELU,一文概览神经网络的激活函数
选自mlfromscratch作者:Casper Hansen机器之心编译参与:熊猫、杜伟激活函数对神经网络的重要性自不必多言,机器之心也曾发布过一些相关的介绍文章,比如《一文概览深度学习中的激活函数》。本文同样关注的是激活函数。来自丹麦技术大学的 Casper Hansen 通过公式、图表和代码实验介绍了 sigmoid、ReLU、ELU 以及更新的 Leaky ReLU、SELU、GELU 这些激活函数,并比较了它们的优势和短板。在计算每一层的激活值时,我们要用到激活函数,之后才转载 2021-02-25 17:30:30 · 752 阅读 · 0 评论 -
Google预训练语言模型T5
这几天NLP领域又炸锅了,Google又祭出预训练模型大杀器T5(Text-to-Text Transfer Transformer),既在情理之中,又在意料之外。在情理之中是因为,BERT及后续改进模型出来后,大的趋势是更复杂的模型和更多的数据,个人觉得Google应该不会满足于BERT,19年应该还会有大杀招出来。在意料之外是因为,没有想到T5会干得这么彻底,有一种惨无人道的感觉,这让大家以后还往哪做啊。下面所讲纯属个人思考,眼光有限,错误难免,谨慎参考。T5的出世我感觉让一些研究人员会有种绝.转载 2021-01-27 10:28:29 · 2129 阅读 · 0 评论 -
RNN LSTM GRU 讲解
前言平时很少写总结性的文章,感觉还是需要阶段性总结一些可以串在一起的知识点,所以这次写了下。 因为我写的内容主要在时序、时空预测这个方向,所以主要还是把rnn,lstm,gru,convlstm,convgru以及ST-LSTM一、 RNN最为原始的循环神经网络,本质就是全连接网络,只是为了考虑过去的信息,输出不仅取决于当前输入,还取决于之前的信息,也就是输出由之前的信息(也就是状态state)和此时的输入决定。1.1 结构图1.2 公式1.3 优缺点1.3.1 优.转载 2021-01-25 17:26:18 · 2552 阅读 · 0 评论 -
“哪吒”出世!华为开源中文版BERT模型
自Google于2018年发布预训练语言模型BERT ,并在11项自然语言处理(NLP)任务上取得最好成绩,预训练语言模型开始得到学术界和工业界的极大关注,已经成为自然语言处理的新范式。各个公司和高校的研究团队陆续推出了新的预训练语言模型,并不断刷新NLP任务上的记录,如CMU和Google推出的XLnet ,Facebook AI推出的RoBERTa ,百度推出的ERNIE 等。 华为诺亚方舟实验室语音语义团队与海思、云BU等团队合作,共同研究大规模预训练模型的训练技术,发布了自己的中文预训练语言转载 2020-12-28 21:25:19 · 1268 阅读 · 0 评论 -
###好好好####RL-GAN For NLP: 强化学习在生成对抗网络文本生成中扮演的角色
目录【导读】本文全面系统性梳理介绍了强化学习用于发掘GAN在NLP领域的潜力,请大家阅读。1. 基础:文本生成模型的标准框架2. 问题:GAN为何不能直接用于文本生成2.1. GAN基础知识2.2. GAN面对离散型数据时的困境(啥是离散型数据?)3. 过渡方案:对于GAN的直接改进用于文本生成3.1. Wasserstein-divergence,额外的礼物3.2. Gumbel-softmax,模拟Sampling的softmax4. RL在GAN文本生成中所扮演的作转载 2020-12-23 15:00:36 · 614 阅读 · 0 评论 -
Learning to Select Knowledge for Response Generation in Dialog Systems
文章目录 Abstract 1 Introduction 2 Model 2.1 Background: Seq2Seq and Attention 2.2 Architecture Overview 2.3 Encoder 2.4 Knowledge Manager 2.5 Decoder 2.6 Loss Function 3 Experiments 3.1 Dataset 3.2 Models for Comparison转载 2020-11-10 15:42:00 · 371 阅读 · 0 评论 -
再谈权重共享
之前在几篇博客中说到了权重共享,但都觉得不够全面,这里做个专题,以后有新的理解都在此更新。1. 减少运算只是锦上添花之前说到权重共享可以减少运算,是的,但这样说好像是可有可无,只是运算量大小的问题,其实不是可有可无的。2. 权重共享的本质是特征提取之前说到权重就是模板,我们按照一定的模板来与样本进行比对,看看有没有与模板一致的外在表现(特征)3. 权重共享使得模型泛化普通的神经网络输入是固定的,而权重共享可以使得输入不固定。比如很多张图像,每张图像上有个人脸,但...原创 2020-11-03 17:07:28 · 4994 阅读 · 0 评论 -
关于batch normalization和layer normalization的理解
目录一、batch normalization和layer normalization的动机二、BN和LN的框架原理2.1BN和LN的具体操作原理2.2BN和LN的优点和不足2.3BN和LN的不同2.4BN和LN的实例代码展示三、Bert、Transformer中为何使用的是LN而很少使用BN3.1第一个解释3.2第二个解释 在深度学习中经常看到batch normalization的使用,在Bert模型里面经常看到layer normalization...转载 2020-10-28 09:43:04 · 11957 阅读 · 2 评论 -
论文笔记--Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification (V-Net)
First published on indexfziq.github.io at 2019-03-08 14:00:00Introduction本文出自Baidu NLP Research,在MS MARCO的V1版本上是第二;V2版本上QA任务是第三,well-formed任务是第二。代码没公开,基本的思想就是提出两个辅助任务,辅助抽取更好的答案片段。Motivation这篇文章的动机很直接,文章对数据进行分析,提出一种假设:正确的答案往往在10个摘要中出现频率高,且具有很大的相似性;然转载 2020-09-25 09:03:21 · 388 阅读 · 0 评论 -
#####haohaohaohao#######MSRA提出通用文档预训练模型LayoutLM,通往文档智能之路!
星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术随着数字化进程的加快,文档、图像等载体的结构化分析和内容提取成为关乎企业数字化转型成败的关键一环,自动、精准、快速的信息处理对于生产力的提升至关重要。以商业文档为例,不仅包含了公司内外部事务的处理细节和知识沉淀,还有大量行业相关的实体和数字信息。人工提取这些信息既耗时费力且精度低,而且可复用性也不高,因此,文档智能技术(Document Intelligence)应运而生。文档智能技术深层次地结合了人工智能和人类智能,在金融、医疗、保险、转载 2020-08-25 16:34:41 · 911 阅读 · 0 评论 -
LayoutLM——文本与布局的预训练用于文档图像理解
摘要: 预训练技术近年来在多种NPL任务中取得了广泛的成功。尽管广泛的NPL应用的预训练模型,其大多聚焦于文本级别的操作,而忽略了布局与风格信息,这对文档图像的理解至关重要。该篇论文提出了LayoutLM来联合建模扫描文档图像的文本与布局信息关系,这将有益于真实世界中大量的图像理解任务,如文档图像的信息提取。此外,可以利用图像特征合并文字的视觉信息到LayoutLM中。这是第一次在单独的文档级预训练结构将文字与布局联合学习。其在一些下游任务中达到了新的高水平结果,包括表格理解,收据理解,文档图像分类。代码与转载 2020-08-25 16:03:39 · 8418 阅读 · 0 评论 -
###好好好####深度学习---多标签分类问题
keras multi-label classification 多标签分类 问题:一个数据又多个标签,一个样本数据多个类别中的某几类;比如一个病人的数据有多个疾病,一个文本有多种题材,所以标签就是: [1,0,0,0,1,0,1] 这种高维稀疏类型,如何计算分类准确率?分类问题:二分类多分类多标签Keras metrics (性能度量)介绍的比较好的一个博客:https://machinelearningmastery.com/custom-metrics-de..转载 2020-08-04 11:55:26 · 5406 阅读 · 1 评论 -
Keras 多任务实现,Multi Loss
找了好久, 终于找到了:Keras Xception Multi loss 细粒度图像分类这里只摘取关键代码:# create the base pre-trained modelinput_tensor = Input(shape=(299, 299, 3))base_model = Xception(include_top=True, weights='imagenet', input_tensor=None, input_shape=None)plot_model(base_model,转载 2020-07-22 17:20:18 · 395 阅读 · 0 评论 -
##haohaohao###Keras中无损实现复杂(多入参)的损失函数
本文基于比较古旧的KERAS=2.1.5版本,运用了最新tf2.0以及tf.keras特性的更好版本请移步我的另一篇文章:Ziyigogogo:Tensorflow2.0中复杂损失函数实现zhuanlan.zhihu.com前言Keras中,直接利用API可以快速的实现一些功能简单的自定义损失函数:model.compile(loss=YOUR_CUSTOM_LOSS_FUNCTION)然而任何的简单都是有代价的,通过这个内置方法定义的损失函数有且只能有y_true和y_pred两个转载 2020-07-21 15:38:44 · 888 阅读 · 0 评论 -
###好好好#####迁移学习(Transfer)
迁移学习(Transfer),面试看这些就够了!(附代码)1. 什么是迁移学习迁移学习(Transfer Learning)是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学转载 2020-06-24 15:13:56 · 403 阅读 · 0 评论 -
###好好好好#####模型蒸馏(Distil)及mnist实践
结论:蒸馏是个好方法。模型压缩/蒸馏在论文《Model Compression》及《Distilling the Knowledge in a Neural Network》提及,下面介绍后者及使用keras测试mnist数据集。蒸馏:使用小模型模拟大模型的泛性。通常,我们训练mnist时,target是分类标签,在蒸馏模型时,使用的是教师模型的输出概率分布作为“soft target”。也即损失为学生网络与教师网络输出的交叉熵(这里采用DistilBert论文中的策略,此论文不同)。当训练转载 2020-05-28 11:02:18 · 469 阅读 · 0 评论 -
使用TensorFlow服务和Flask部署Keras模型!
部署Keras模型通常需要抽象出你的机器学习模型,并将其与易于使用的API端点一起部署或集成。例如,我们可以提供一个URL端点,任何人都可以使用它来发出POST请求,他们会得到模型推断的JSON响应,而不必担心其技术性细节。在本教程中,我们将创建一个TensorFlow服务器来部署我们在Keras内置的InceptionV3图像分类卷积神经网络(CNN)。 然后,我们将创建一个简单的...转载 2020-01-21 11:49:41 · 2730 阅读 · 0 评论 -
深度学习Tensorflow生产环境部署(上·环境准备篇)
1 系统背景系统是ubuntu16.04ubuntu@ubuntu:/usr/bin$ cat /etc/issueUbuntu 16.04.5 LTS \n \l或者ubuntu@ubuntu:/usr/bin$ uname -m && cat /etc/*releasex86_64DISTRIB_ID=UbuntuDISTRIB_RELEASE=16...转载 2020-01-21 11:48:06 · 851 阅读 · 0 评论 -
【Graph Embedding】DeepWalk算法原理,实现和应用
本文首先从整体介绍一下图表示学习,然后分别从原理,核心代码,应用三个部分介绍 DeepWalk 。图表示学习我们都知道在数据结构中,图是一种基础且常用的结构。现实世界中许多场景可以抽象为一种图结构,如社交网络,交通网络,电商网站中用户与物品的关系等。目前提到图算法一般指:1. 经典数据结构与算法层面的:最小生成树 (Prim,Kruskal,...) ,最短路 (Dijkstr...转载 2019-11-01 16:55:56 · 2893 阅读 · 0 评论 -
谷俊丽分享之基于深度学习的大数据挖掘
谷俊丽:博士学历,毕业于清华大学-美国University of Illinois Urbana-champaign大学,在清华期间作为核心人员研发过超长指令字数字信号处理器,在美期间曾参与UIUC超级计算机上的研究工作,并工作实习于Google总部和创业公司Personify。现于AMD中国研究院高级研究员,从事异构计算平台、人工智能+Big Data相关的研究。在计算机和高性能计算领域转载 2015-09-26 17:33:29 · 9942 阅读 · 0 评论 -
深度学习之autoEncoder
1)autoencoderautoencoder是一种无监督的学习算法,他利用反向传播算法,让目标值等于输入值。如图所示:Autoencoder尝试学习一个 的函数。也就是说autoencoder尝试逼近一个恒等函数,使得输出接近于输入 。当然为了使这个函数有意义,需要加入一些限制条件(比如说限制隐藏神经元的数目),就可以发现一些有意义的结构。Autoenco转载 2015-09-25 10:59:59 · 2069 阅读 · 0 评论 -
深度学习之卷积神经网络
卷积神经网络转载请注明:http://blog.youkuaiyun.com/stdcoutzyx/article/details/41596663自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet、cuda-convnet2。为了增进CNN的理解和使用,特写此博文,以其与人转载 2015-09-25 11:31:01 · 815 阅读 · 0 评论 -
深度学习之Caffe初步学习
1. 初识Caffe1.1. Caffe相对与其他DL框架的优点和缺点:优点:速度快。Google Protocol Buffer数据标准为Caffe提升了效率。学术论文采用此模型较多。不确定是不是最多,但接触到的不少论文都与Caffe有关(R-CNN,DSN,最近还有人用Caffe实现LSTM)缺点:曾更新过重要函数接口。有人反映,偶尔会出现接口变换的情况,自己很久前转载 2015-09-23 17:24:23 · 623 阅读 · 0 评论 -
Deep Learning: Doubly Easy and Doubly Powerful with GraphLab Create
Note: Many of the code snippets in this blog post can take a very long time without GPU speedup. Please install the GPU version of GraphLab Create to follow along. One of machine learning’s c翻译 2015-10-27 09:15:59 · 932 阅读 · 0 评论 -
[caffe]深度学习之图像分类模型AlexNet解读
在imagenet上的图像分类challenge上Alex提出的alexnet网络结构模型赢得了2012届的冠军。要研究CNN类型DL网络模型在图像分类上的应用,就逃不开研究alexnet,这是CNN在图像分类上的经典模型(DL火起来之后)。在DL开源实现caffe的model样例中,它也给出了alexnet的复现,具体网络配置文件如下https://github.com/BVLC/caf转载 2015-09-23 17:36:21 · 1332 阅读 · 0 评论 -
卷积神经网络Convolutional Neural Networks
卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有转载 2015-09-23 17:01:28 · 3665 阅读 · 0 评论 -
Deep learning with Theano 官方中文教程(翻译)(四)—— 卷积神经网络(CNN)
供大家相互交流和学习,本人水平有限,若有各种大小错误,还请巨牛大牛小牛微牛们立马拍砖,这样才能共同进步!若引用译文请注明出处http://www.cnblogs.com/charleshuang/。 本文译自:http://deeplearning.net/tutorial/lenet.html文章中的代码截图不是很清晰,可以去上面的原文网址去查看。 1、动机 卷积神经网络转载 2016-09-19 16:02:27 · 712 阅读 · 0 评论 -
ubuntu14.04+cuda7.5+caffe安装教程
折腾了两个星期的caffe,windows和ubuntu下都安装成功了。其中windows的安装配置参考官网推荐的那个blog,后来发现那个版本的caffe太老,和现在的不兼容,一些关键字都不一样,果断回到Linux下。这里记录一下我的安装配置流程。电脑配置:ubuntu 14.04 64bit8G 内存GTX650显卡软件版本:CUDA 7.0caffe 当天转载 2016-09-20 16:13:35 · 607 阅读 · 0 评论 -
caffe自带的两个例程
为了程序的简洁,在caffe中是不带练习数据的,因此需要自己去下载。但在caffe根目录下的data文件夹里,作者已经为我们编写好了下载数据的脚本文件,我们只需要联网,运行这些脚本文件就行了。注意:在caffe中运行所有程序,都必须在根目录下进行,否则会出错1、mnist实例mnist是一个手写数字库,由DL大牛Yan LeCun进行维护。mnist最初用于支票上的手写数字识别, 现在转载 2016-09-20 16:37:44 · 875 阅读 · 0 评论 -
从机器学习谈起
在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我转载 2016-09-23 15:16:48 · 448 阅读 · 0 评论 -
Unsupported gpu architecture 'compute_11'解决方法
问题描述: 按照网上教程安装OpenCV ,在make 时出现错误,错误提示如下:nvcc fatal : Unsupported gpu architecture 'compute_11'CMake Error at cuda_compile_generated_matrix_operations.cu.o.cmake:206 (message): Error generati转载 2016-09-21 16:55:40 · 754 阅读 · 0 评论 -
深度学习框架Keras的安装
深度学习框架Keras的安装Keras是Python语言中基于原始深度学习框架Tensorflow或Theano的封装框架。那么如果准备使用Keras首先必须准备安装Tensorflow或TheanoKeras中文文档地址0. CPU运行版本的安装如果需要直接安装(即使用CPU实现程序运算),仅仅需要在安装好的Python环境下,在终端或者或命令行下,输入:转载 2017-01-05 14:34:24 · 830 阅读 · 0 评论 -
深度学习框架Keras使用心得
最近几个月为了写小论文,题目是关于用深度学习做人脸检索的,所以需要选择一款合适的深度学习框架,caffe我学完以后感觉使用不是很方便,之后有人向我推荐了Keras,其简单的风格吸引了我,之后的四个月我都一直在使用Keras框架,由于我用的时候,tensorflow的相关教程还不是很多,所以后端我使用theano。这次的心得主要分成两篇,第一篇是聊聊开始使用keras容易遇到的坑,第二篇会在我论文发转载 2017-01-06 11:35:01 · 14597 阅读 · 5 评论 -
Keras/Python深度学习中的网格搜索超参数调优(附源码)
超参数优化是深度学习中的重要组成部分。其原因在于,神经网络是公认的难以配置,而又有很多参数需要设置。最重要的是,个别模型的训练非常缓慢。在这篇文章中,你会了解到如何使用scikit-learn python机器学习库中的网格搜索功能调整Keras深度学习模型中的超参数。阅读本文后,你就会了解:如何包装Keras模型以便在scikit-learn中使用,以及如何使用网格搜索。如何网格转载 2017-01-06 11:40:37 · 2025 阅读 · 0 评论 -
神经网络的Dropout正则化
dropout技术是神经网络和深度学习模型的一种简单而有效的正则化方式。本文将向你介绍dropout正则化技术,并且教你如何在Keras中用Python将其应用于你的模型。读完本文之后,你将了解:dropout正则化的原理如何在输入层使用dropout如何在隐藏层使用dropout如何针对具体问题对dropout调优神经网络的Dropout正则化Dropout是Srivas转载 2017-01-06 14:59:45 · 10626 阅读 · 1 评论 -
ubuntu14.04 安装 tensorflow(附一系列报错方案)
如果内容侵权的话,联系我,我会立马删了的~因为参考的太多了,如果一一联系再等回复,战线太长了~~蟹蟹给我贡献技术源泉的作者们~ 最近准备从理论和实验两个方面学习深度学习,所以,前面装好了Theano环境,后来知乎上看到这个回答,就调研了一下各个深度学习框架,我没有看源码,调研也不是很深入,仅仅是为了选择深度学习框架做的一个大概了解~1. 如何选择深度学习框架?参考资料如下: 1转载 2017-01-06 16:10:13 · 5961 阅读 · 0 评论 -
易用的深度学习框架Keras简介
致读者:本文写于keras开发初期,目前keras已经迭代到1.0版本,很多API都发生了较大的变化,所以本文的粘贴的一些代码可能已经过时,在我的github上有更新后的代码,读者需要的话可以看github上的代码:https://github.com/wepe/MachineLearning之前我一直在使用Theano,前面五篇Deeplearning相关的文章也是学习Theano的一些转载 2017-01-09 10:00:29 · 820 阅读 · 0 评论