机器学习周报(11.11-11.17)

摘要

本周主要对前几周学过的知识进行了复习和相关基础知识的查缺补漏,主要包括深度学习的基础知识。以及学习了如何运用爱因斯坦标示法让PyTorch张量变换的代码更容易编写。

Abstract

This week, I mainly reviewed the knowledge I learned in the previous weeks and checked for any gaps in related basic knowledge, including the basics of deep learning. And learned how to use Einstein notation to make the code for PyTorch tensor transformations easier to write.

1 深度学习基本知识

深度学习定义: 一般是指通过训练多层网络结构对未知数据进行分类或回归

深度学习是使用深度神经网络来学习数据的表示和提取特征。这些网络由多个层次组成,每一层都执行特定的数据变换,从而将数据从原始形式转换为更高层次、更抽象的表达。

深度学习分类::有监督学习方法–深度前馈网络、卷积神经网络、循环神经网络等;
无监督学习方法–深度信念网、深度玻尔兹曼机,深度自编码器等。

2 神经网络基础

2.1 神经网络组成

神经网络结构: 每一层神经元接收前一层神经元的输出作为输入,并经过线性转变和非线性变换后产生输出。这些输出再作为下一层神经元的输入,直到最后一层产生模型的最终输出。

人工神经网络(Artificial Neural Networks,简写为ANNS)是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力。神经网络类型众多,其中最为重要的是多层感知机。为了详细地描述神经网络,我们先从最简单的神经网络说起。

神经网络常用模型结构

在这里插入图片描述
其中圆形节点表示一个神经元,方形节点表示一组神经元。

下图包含了大部分常用的模型:
在这里插入图片描述

2.2 前向传播和反向传播

神经网络的计算主要有两种:

  1. 前向传播(foward propagation,FP)作用于每一层的输入,通过逐层计算得到输出结果;
  2. 反向传播(backward propagation,BP)作用于网络的输出,通过计算梯度由深到浅更新网络参数。

前向传播

在这里插入图片描述

假设上一层结点ij,k,…等一些结点与本层的结点w有连接,那么结点w就是通过上一层的i ,j,k,…等结点以及对应的连接权值进行加权和运算,最终结果再加上一个偏置项(图中为了简单省略了),最后在通过一个非线性函数(即激活函数),如ReLu,sigmoid等函数,最后得到的结果就是本层结点w的输出。
最终不断的通过这种方法一层层的运算,得到输出层结果。

反向传播

在这里插入图片描述
反向传播阶段,首先计算损失函数对输出层激活值的导数,即损失函数相对于输出层参数的梯度。然后,将这个梯度通过链式法则传播到隐藏层,逐层计算每个权重的梯度。最后,利用这些梯度,通过梯度下降或其他优化算法更新每个权重,使得损失函数在下一次迭代中更小。

3 超参数

超参数: 在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。

超参数通常存在于:

  1. 定义关于模型的更高层次的概念,如复杂性或学习能力。
  2. 不能直接从标准模型培训过程中的数据中学习,需要预先定义。
  3. 可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定

超参数具体来讲比如算法中的学习率(learning rate)、梯度下降法迭代的数量(iterations)、隐藏层数目(hidden layers)、隐藏层单元数目、激活函数(activation function)都需要根据实际情况来设置,这些数字实际上控制了最后的参数和的值,所以它们被称作超参数。

如何寻找超参数的最优值?

  1. 猜测和检查:根据经验或直觉,选择参数,一直迭代。
  2. 网格搜索:让计算机尝试在一定范围内均匀分布的一组值。
  3. 随机搜索:让计算机随机挑选一组值等

3.2 学习率

学习率通常用符号η表示,决定了在每次参数更新时,模型参数沿着负梯度方向前进的距离,即在优化算法中,学习率控制着每次更新模型参数时,参数沿着梯度方向移动的步长大小。

3.2.1 自适应学习率

  • AdaGrad:根据梯度大小自动调节学习率;
  • RMSProp:与AdaGrad不同的是,RMSProp可以动态调整梯度的重要程度;
  • Adam:在RMSProp的基础上加上动量,是最常用的优化器。

3.2.2 学习率调度

  • 学习率退火(衰减):η 随时间逐渐减少;
  • 预热: η \eta
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值