
花书读书笔记
文章平均质量分 78
《深度学习》
及时行樂_
方向:航空数据异常/攻击检测及分析,欢迎私信交流,共同进步~
展开
-
《深度学习》花书-读书笔记汇总贴(汇总19/19)
本文章主要用来记录学习《深度学习》(花书)的学习笔记,主要根据课本内容来,初步打算按照章节目录将知识点慢慢整理,希望能互相学习,共同提高!目录第一章 前言(没啥好说的,自己看看内容就行)第一部分 应用数学与机器学习基础花书读书笔记(一)-线性代数(待更新)花书读书笔记(二)-概率与信息论(待更新)花书读书笔记(三)-数值计算(待更新)花书读书笔记(四)-机器学习基础(待更新)第二部分 深层网络:现代实践花书读书笔记(五)-深度前馈网络(待更新)花书读书笔记(六)-深度学习中的正则化(待更原创 2021-01-15 18:01:34 · 2213 阅读 · 0 评论 -
花书读书笔记(十九)-深度生成模型
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》涉及到的比较多,可以看看这个汇总贴后面的几篇:汇总贴:机器学习-白板推导系列笔记一、玻尔兹曼机白板推导系列笔记(二十八)-玻尔兹曼机二、受限玻尔兹曼机白板推导系列笔记(二十一)-受限玻尔兹曼机三、深度信念网络白板推导系列笔记(二十七)-深度信念网络四、深度玻尔兹曼机白板推导系列笔记(二十九)-深度玻尔兹曼机五、实值数据上的玻尔兹曼机六、卷积玻尔兹曼机七、用于结构化或序列输出的玻尔兹曼机八、其原创 2021-01-31 13:49:34 · 370 阅读 · 0 评论 -
花书读书笔记(十八)-近似推断
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》老规矩,先贴文章,里面有直达b站大佬的视频链接:白板推导系列笔记(二十五)-近似推断,他讲的还挺细,看看书再看看他讲,挺好的。一、把推断视作优化问题二、期望最大化三、最大后验推断和稀疏编码四、变分推断和变分学习变分方法的优点是我们不需要为分布qqq设定一个特定的参数化形式。我们设定它如何分解,之后通过解决优化问题来找出在这些分解限制下最优的概率分布。对离散型潜变量来说,这意味着我们使用传统的原创 2021-01-31 13:42:14 · 296 阅读 · 0 评论 -
花书读书笔记(十七)-直面配分函数
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》老规矩,先贴文章,里面有直达b站大佬的视频链接:白板推导系列笔记(二十四)-直面配分函数,他主要讲的是前面的,还挺细,看看书再看看他讲,挺好的。一、对数似然梯度二、随机最大似然和对比散度前两节就直接看上面的那个文章吧~三、伪似然蒙特卡罗近似配分函数及其梯度需要直接处理配分函数。有些其他方法通过训练不需要计算配分函数的模型来绕开这个问题。这些方法大多数都基于以下观察:无向概率模型中很容易计算概率的比率。这是原创 2021-01-31 13:06:01 · 392 阅读 · 0 评论 -
花书读书笔记(十六)-蒙特卡罗方法
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》可以先看看这个相关文章:白板推导系列笔记(十三)-马尔科夫链蒙特卡洛方法一、采样和蒙特卡洛方法当我们需要以较小的代价近似许多项的和或某个积分时,采样是一种很灵活的选择。使用蒙特卡罗采样来近似它。这种想法把和或者积分视作某分布下的期望,然后通过估计对应的平均值来近似这个期望。二、重要采样直接对期望Ep(z)[f(z)]E_{p(z)}[f(z)]Ep(z)[f(z)]进行采样。缺点:权重⾮常⼩的时候,效原创 2021-01-30 18:08:03 · 266 阅读 · 0 评论 -
花书读书笔记(十五)-深度学习中的结构化概率模型
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》图模型的研究社群是巨大的,并提出过大量的模型、训练算法和推断算法。一、非结构化建模的挑战我们也可以使用概率模型完成许多其他的任务。这些任务通常相比于分类成本更高。其中的一些任务需要产生多个输出。大部分任务需要对输入数据整个结构的完整理解,所以并不能舍弃数据的一部分。这些任务包括以下几个:估计密度函数去噪缺失值的填补采样通常意义上讲,如果我们希望对一个包含nnn个离散变量并且每个变量都能取 kkk个原创 2021-01-30 17:58:48 · 378 阅读 · 0 评论 -
花书读书笔记(十四)-表示学习
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》一、贪心逐层无监督预训练二、迁移学习和领域自适应三、半监督解释因果关系四、分布式表示五、得益于深度的指数增益六、提供发现潜在原因的线索...原创 2021-01-29 21:50:47 · 339 阅读 · 0 评论 -
花书读书笔记(十三)-自编码器
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》自编码器(autoencoder)是神经网络的一种,经过训练后能尝试将输入复制到输出。可以先看看这个文章里的视频:白板推导系列笔记(三十二)-变分自编码器一、欠完备自编码器从自编码器获得有用特征的一种方法是限制hhh的维度比xxx小,这种编码维度小于输入维度的自编码器称为欠完备(undercomplete)自编码器。学习过程可以简单地描述为最小化一个损失函数L(x,g(f(x)))L(x,g(f(x)))L(原创 2021-01-25 16:41:02 · 479 阅读 · 0 评论 -
花书读书笔记(十二)-线性因子模型
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》基于潜变量的最简单的概率模型。x=Wh+b+noisex=Wh+b+noisex=Wh+b+noise一、概率PCA和因子分析潜变量的先验是一个方差为单位矩阵的高斯分布h∼N(h;0,I)h\sim N(h;0,I)h∼N(h;0,I)所以xxx也服从多维正态分布x∼N(x;b,WWT+ψ)x\sim N(x;b,WW^T+\psi)x∼N(x;b,WWT+ψ)其中xix_ixi为给定hhh下得一组观察原创 2021-01-25 15:51:16 · 441 阅读 · 3 评论 -
花书读书笔记(十一)-应用
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》一、大规模深度学习快速的 CPU 实现GPU 实现:是为图形应用而开发的专用硬件组件。大规模的分布式实现:数据并行、模型并行、异步随机梯度下降模型压缩动态结构深度网络的专用硬件实现二、计算机视觉计算机视觉的应用广泛:从复现人类视觉能力(比如识别人脸)到创造全新的视觉能力。数据预处理:对比度归一化(局部/全局)数据集增强:通过增加训练集的额外副本来增加训练集的大小,进而改进分类器的泛化能力。原创 2021-01-23 17:38:26 · 174 阅读 · 0 评论 -
花书读书笔记(十)-实践方法论
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》一 性能度量确定目标,即使用什么误差度量,是必要的第一步,因为误差度量将指导接下来的所有工作。训练数据的数量会因为各种原因受到限制。当目标是打造现实世界中最好的产品或服务时,我们通常需要收集更多的数据,但必须确定进一步减少误差的价值,并与收集更多数据的成本做权衡。数据收集会耗费时间、金钱,或带来人体痛苦(例如,收集人体医疗测试数据)。除了需要考虑性能度量之外,另一个需要考虑的是度量的选择。二、默认的基准模型原创 2021-01-23 17:24:15 · 361 阅读 · 0 评论 -
花书读书笔记(九)-序列建模:循环和递归网络
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》一、展开计算图二、循环神经网络三、双向RNN四、基于编码-解码的序列到序列架构五、深度循环网络六、递归神经网络七、长期依赖的挑战八、回声状态网络九、渗漏单元和其他多时间尺度的策略十、长短期记忆和其他门控RNN十一、优化长期依赖十二、外显记忆...原创 2021-01-23 14:56:22 · 422 阅读 · 1 评论 -
花书读书笔记(八)-卷积网络
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》CNN是一种专门用来处理具有类似网格结构的数据的神经网络。一、卷积计算二、动机三、池化四、卷积与池化作为一种无限强的先验五、基本卷积函数的变体六、结构化输出七、数据类型八、高效的卷积算法九、随机或无监督的特征十、卷积网络的神经科学基础...原创 2021-01-21 19:12:25 · 424 阅读 · 0 评论 -
花书读书笔记(七)-深度模型中的优化
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴《深度学习》PDF免费下载:《深度学习》一、学习和纯优化有什么不同二、神经网络优化中的挑战三、基本算法四、参数初始化策略五、自适应学习率算法六、二阶近似方法七、优化策略和元方法...原创 2021-01-20 22:37:20 · 342 阅读 · 0 评论 -
花书读书笔记(六)-深度学习中的正则化
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴一、参数范数惩罚许多正则化方法通过对目标函数JJJ添加一个参数范数惩罚Ω(θ)\varOmega(\theta)Ω(θ),限制模型(如神经网络、线性回归或逻辑回归)的学习能力。我们将正则化后的目标函数记为J^\hat JJ^:J^(θ;X,y)=J(θ;X,y)+αΩ(θ)\hat J(\theta;X,y)=J(\theta;X,y)+\alpha\varOmega(\theta)J^(θ;X,y)=J(θ;X,y)+αΩ(θ)其中α∈[0,∞)\a原创 2021-01-19 21:54:22 · 1048 阅读 · 1 评论 -
花书读书笔记(五)-深度前馈网络
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴深度前馈网络(deep feedforward network),也叫作前馈神经网络(feedforward neural network)或者多层感知机(multilayer perceptron, MLP),是典型的深度学习模型。一、实例:学习XOR可以根据这篇文章中的视频来进行学习异或问题:白板推导系列笔记(二十三)-前馈神经网络二、基于梯度的学习线性模型和神经网络的最大区别,在于神经网络的非线性导致大多数我们感兴趣的代价函数都变得非凸。迭原创 2021-01-19 14:16:34 · 601 阅读 · 0 评论 -
花书读书笔记(四)-机器学习基础
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴一、学习算法机器学习算法是一种能够从数据中学习的算法。任务TTT性能度量PPP经验EEE二、容量、过拟合和欠拟合在先前未观测到的输入上表现良好的能力被称为泛化(generalization)。决定机器学习算法效果是否好的因素:降低训练误差。缩小训练误差和测试误差的差距。这两个因素对应机器学习的两个主要挑战:欠拟合(underfitting)和过拟合(overfitting)。欠拟合是指模型不能在训练集上获得足够低的误差。而过拟合是指原创 2021-01-18 20:06:03 · 435 阅读 · 0 评论 -
花书读书笔记(三)-数值计算
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴一、上溢和下溢一种极具毁灭性的舍入误差是下溢(underflow),当接近零的数被四舍五入为零时发生下溢。另一个极具破坏力的数值错误形式是上溢(overflow),当大量级的数被近似为∞\infty∞或−∞-\infty−∞时发生上溢。必须对上溢和下溢进行数值稳定的一个例子是 softmax 函数(softmax function),softmax 函数经常用于预测与 Multinoulli 分布相关联的概率,定义为softmax(xi)=exp(xi)原创 2021-01-17 19:31:45 · 358 阅读 · 1 评论 -
花书读书笔记(二)-概率与信息论
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴一、概率直接与事件发生的频率相联系,被称为频率派概率(frequentist probability);涉及到确定性水平,被称为贝叶斯概率(Bayesian probability)。二、随机变量随机变量可以是离散的或者连续的。三、概率分布用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。离散型变量的概率分布可以用概率质量函数来描述;当我们研究的对象是连续型随机变量时,我原创 2021-01-16 15:35:48 · 407 阅读 · 1 评论 -
花书读书笔记(一)-线性代数(奇异值分解、伪逆、PCA)
全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴一、标量、向量、矩阵和张量二、矩阵和向量相乘三、单位矩阵和逆矩阵四、线性相关和生成子空间五、范数六、特殊类型的矩阵和向量七、特征分解以上相关概念就直接看课本了。八、奇异值分解奇异值分解是将矩阵AAA分解成三个矩阵的乘积:A=UDVTA=UDV^TA=UDVT假设AAA是一个m∗nm*nm∗n的矩阵,那么UUU是一个m∗mm*mm∗m的矩阵,DDD是一个m∗nm*nm∗n的矩阵,VVV是一个n∗nn*nn∗n的矩阵。矩阵UUU和VVV原创 2021-01-15 22:00:15 · 1093 阅读 · 1 评论