Patr1.第1-5章

视频教程B站账号
电子书在作者的个人网站
教程附带的数据和源代码,在github可供下载

第1章:初识深度学习

在这里插入图片描述

第2章:深度学习里的线性代数

详细请见:https://www.rethink.fun/chapter2/%E4%BB%80%E4%B9%88%E6%98%AF%E5%90%91%E9%87%8F.html

向量的叉乘

在这里插入图片描述

第3章:深度学习里的微积分

详细请见:https://www.rethink.fun/chapter3/%E5%87%BD%E6%95%B0%E7%9A%84%E6%9E%81%E9%99%90.html

函数的极限

在这里插入图片描述

常用的求导公式

在这里插入图片描述

导数的运算法则

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

一元函数微分

在这里插入图片描述

偏导数

在这里插入图片描述
在这里插入图片描述

全微分

在这里插入图片描述
在这里插入图片描述

方向导数与梯度

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

定积分

在这里插入图片描述

第4章:深度学习中的概率与统计

概率论里的基本概念

你可能觉得什么是概率是个很简单的问题,不就是某件事发生的可能性吗?但是在概率论的研究领域它分为三个学派,并且各自都有自己对概率的定义。
在这里插入图片描述

概率论三大公理

概率论的三大公理是概率的基本定义,由俄国数学家柯尔莫哥洛夫(Andrey Kolmogorov)在1933年提出,构成了现代概率论的数学基础。它们基于集合论,用来严格定义概率的性质。这三大公理是:
在这里插入图片描述

随机变量及其分布

在这里插入图片描述
在这里插入图片描述

数学期望与方差

概率和统计的区别
概率是以“已知分布”为前提的学科。它关注的是随机变量的分布特性,并通过数学模型来描述这些特性。根据随机变量的分布特性,推导未知事件的结果。比如已知一个硬币正反面概率各为0.5。那你投掷一次硬币得到正面的概率为多少?
统计是以有限样本为前提的学科。它关注的是通过样本推断总体的特性。比如你抛了10000次硬币,其中6000次为正面,4000次为反面。你推断抛一次硬币得到正面的概率为多少。

简单总结如下:
概率:已知总体分布 ⇒ 推断随机变量的特性
统计:已知样本数据 ⇒ 推断总体分布的特性
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大数定律

描述了大量独立随机变量的平均值在重复实验中表现出的统计规律性。通俗来说,大数定律表明,当试验次数足够多时,随机变量的平均值会趋近于理论期望值。
大数定律的定义
在这里插入图片描述

条件概率与全概率

条件概率
在这里插入图片描述
全概率
在这里插入图片描述

中心极限定理与正态分布

正态分布英文为:Normal Distribution,可能翻译为常态分布更合适。为什么它是常态分布呢?因为在自然界和人类社会里,这种分布实在太常见了;正态分布也叫高斯分布。 下边这些随机变量都符合正态分布:

  • 人的身高
  • 高考成绩
  • 一批产品每个的重量
  • 深度学习里模型的误差
    在这里插入图片描述
    在这里插入图片描述

极大似然估计

强烈建议看原文,从白球黑球的例子引出最终最大化似然估计的定义,解释很好!!!

在这里插入图片描述

极大似然估计(Maximum Likelihood Estimation,简称 MLE)是一种统计方法,用于估计模型参数,使得在已知数据样本的情况下,模型生成这些数据的概率最大。
在这里插入图片描述

第5章:线性回归

一元线性回归

在这里插入图片描述
在机器学习里的算法分为监督学习算法,无监督学习算法,强化学习算法。
监督学习:
在监督学习中,数据集中每个样本都有输入特征(X)和对应的标签(Y)。算法通过学习数据中的输入-标签关系来进行预测。机器学习中大部分的算法都是监督学习,比如我们刚才讲的线性回归。还有比如你要让模型通过宠物照片识别照片中是猫还是狗,你提供给模型的训练数据里,必须包含人标注的数据。也就是通过label告诉模型每个训练照片是猫还是狗,让模型学习特征和标签之间的关系。
无监督学习:
在无监督学习中,数据集中只有输入特征(X),没有标签(Y)。算法自动发现数据中的模式对数据进行分析。无监督学习最常见的模型就是聚类模型,比如电信运营商根据所有用户的消费数据,让模型自动发现用户的消费习惯,有的是电话多,有的是流量多,从而聚类出很多套餐类别。在这里并不需要标注数据,只有输入特征,让算法自己去寻找数据里的规律。
强化学习:
在强化学习里,无法直接给出输入特征(X)对应的标签(Y),而只能给出特征对应的奖励值(R)。模型在训练过程中,不断优化参数,追求更高的奖励。比如你用强化学习训练一个下围棋的模型,针对每一步你无法给出下一步棋下在哪里最好,但是却可以通过棋局最终的输赢的子数来给模型每一步设定奖励值。

在监督学习里,又主要分为回归和分类两种算法。
回归:
当你要预测的变量是连续型变量,那么这个算法就是回归算法。比如预测一个人的身高,体重,收入等。
分类:
当你要预测的变量是可数的离散型变量,那么这个算法就是分类算法,比如预测一张宠物图片是猫还是狗。

分类很好理解,就是根据特征对实例进行分类。那预测连续型变量为什么叫做回归呢?
“回归”这个词的由来与统计学中的“回归到均值”概念有关,后来人们逐渐将所有对连续型变量预测的算法都叫做回归算法。

梯度下降法

学习率
我们可以看到,直接以导数值的大小作为步长看起来不错,但是实际上还需要乘以一个步长的系数。步长系数更正式的名字叫做学习率(Learning Rate),简写做lr。一般情况下,学习率都是小于1的。比如设置为0.001。

参数和超参数
在机器学习领域,在训练过程中由算法调整的变量叫做参数。
超参数是模型训练前需要人为设置的变量,它们不会在训练过程中自动学习,而是由人根据实验或者经验设定的。比如学习率就是一个超参数。
在这里插入图片描述
损失函数除以样本数
为了让训练稳定,不同的样本数也有差不多大小的偏导数值。一般在loss函数都会除以计算loss的样本数
对于回归问题,一般采用的均方误差(Mean Squared Error,MSE)。其公式为:
在这里插入图片描述
不用担心鞍点和局部最优解
在这里插入图片描述
鞍点,之所以叫做鞍点,因为它像马鞍。沿AB方向鞍点处于最小值,沿CD方向鞍点处于最大值。但是因为实际训练模型时,参数个数非常多,基本不可能在某一点让每个维度不是最大值就是最小值。所以你不用担心训练过程最终会收敛到鞍点。
局部最优解的情况也不用担心,基本上不会遇到。因为训练的参数量非常大,几乎不可能所有参数在某一点同时到达局部最小值。另外后边我们会讲到的带动量的优化算法也会规避陷入局部最优解的情况。带动量的优化算法你可以理解为从山上滚下的小球是带有惯性的,可以帮助它冲过一些小的坑,不会陷入下降过程中的局部小坑中。

动手实现多元线性回归

第1个模型实例:原文;建议看一下整个流程!

线性回归只能拟合直线吗

泰勒公式告诉我们,任何一个光滑的、n阶可导的函数,在某一点附近都可以用一个多项式函数来近似。这意味着,即使我们面对的函数关系非常复杂,只要我们选择足够高的多项式次数,就可以用线性回归模型在局部范围内很好地拟合它。
我们知道对于特征和Label之间的非线性问题,我们可以通过构造高次特征来解决。一般的做法是先从二次项开始,逐步增加,直到达到我们满意的效果。假如你在构造特征的二次项,需要注意的是,构造的特征不光可以是一个特征的平方,也可以是任意两个特征之间的乘积。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值