机器学习基础：函数求解与优化,-优快云博客

本文概述了机器学习中的基本概念，如线性模型、Loss函数（MAE/MSE/交叉熵）、以及优化算法（梯度下降），重点讲解了模型训练与误差分析的过程。

一、机器学习是什么

就是找到一个对应的函数

二、术语

准确率 accuracy
activation function
Adaptive Gradient AdaGrad
Adaptive moment estimation Adam
对抗 adversarial
对抗性重编程 adversarial reprogramming
智能体 agent
自编码器 autoencoder
反向传播 BackPropagation
随时间反向传播 BackPropagation Through Time
词袋 Bag-of-Words
批量 batch
批量梯度下降法 Batch Gradient Descent
批量归一化 Batch Normalization
批量大小 batch size
束搜索 beam search
信念网络 belief network
基线 baseline
偏置 bias
灾难性遗忘 catastrophic forgetting
通道 channel
分类 classification
分类器 classifier
编码 code
条件型生成 conditional generation
持续学习 continous learning
连续词袋 Continuous Bag Of Words
卷积层 convolutional layer
卷积神经网络 Convolutional Neural Network
临界点 critical point
交叉熵 cross entropy
循环生成对抗网络 Cycle GAN
数据增强 data augmentation
深度学习 Deep Learning
去噪自编码器 denoising autoencoder
扩散模型 diffusion model
降维 dimensionality reduction
判别器 discriminator
领域自适应 domain adaptation
领域泛化 domain generalization
下采样 downsampling
下游任务 downstream task
丢弃法 dropout method
动态计算 dynamic computation
早停 early stopping
嵌入 embedding
环境 environment
回合 episode
回合 epoch
误差表面 error surface
样本 example
可解释性人工智能 eXplainable Artificial Intelligence
探索 exploration
快速梯度符号法 Fast Gradient Sign Method
特征 feature
特征解耦 feature disentanglement
特征映射 feature map
特征归一化 feature normalization
小样本学习 few-shot learning
滤波器 filter
微调 fine-tuning
灵活性 flexibility
遗忘门 forget gate
全连接层 fully-connected layer
全连接网络 fully-connected network
函数 function
门 gate
高斯分布 Gaussian distribution
生成式对抗网络 generative adversarial network
生成模型 generative model
生成器 generator
全局最小值 global minima
梯度上升 gradient ascent
梯度下降 gradient descent
梯度回合记忆 gradient episodic memory
梯度爆炸 gradient exploding
梯度惩罚 gradient penalty
贪心解码 greedy decoding
贪心搜索 greedy search
标准答案 Ground Truth
海森矩阵 Hessian matrix
隐藏层 hidden layer
超参数 hyperparameter
增量学习 incremental learning
推断 inference
输入门 input gate
内部协变量偏移 internal covariate shift
知识蒸馏 knowledge distillation
隐空间 latent space
学习率 learning rate
学习率退火 learning rate annealing
学习率衰减 learning rate decay
学习率调度 learning rate scheduling
终身学习 LifeLong Learning
线性模型 linear model
局部极大值 local maximum
局部最小值 local minima
局部极小值 local minimum
长短期记忆网络 Long Short-Term Memory network
损失函数 loss function
机器学习 Machine Learning
掩码 mask
最大汇聚 max pooling
平均值 mean
平均绝对误差 Mean Absolute Error
平均汇聚 mean pooling
均方误差 Mean Squared Error
元学习 meta learning
模式崩塌 mode collapse
模型 model
模型诊断元学习 model-agnostic meta-learning
移动平均 moving average
多头自注意力 multi-head self-attention
多任务学习 multitask learning
自然语言处理 Natural Language Processing
网络压缩 network compression
网络剪枝 network pruning
神经网络架构搜索 Neural Architecture Search
神经网络 neural network
无止尽学习 never-ending learning
正态分布 normal distribution
目标函数 objective function
观测 observation
异策略学习 off-policy learning
独热编码 one-hot encoding
单样本学习 one-shot learning
同策略学习 on-policy learning
优化器 optimizer
输出门 output gate
过拟合 overfitting
填充 padding
参数 parameter
参数量化 parameter quantization
参数共享 parameter sharing
音素 phoneme
位置编码 positional encoding
预训练 pre-training
探针 probing
渐进式 GAN progressive GAN
提示 prompting
感受野 receptive field
重构 reconstruction
修正线性单元 Rectified Linear Unit
循环神经网络 Recurrent Neural Network
回归 regression
正则化 regularization
强化学习 Reinforcement Learning
表示 representation
残差连接 residual connection
残差网络 Residual Network
受限玻尔兹曼机 Restricted Boltzmann Machine
回报 return
奖励 reward
Root Mean Squared propagation RMSprop
鞍点 saddle point
计划采样 scheduled sampling
自监督学习 Self-Supervised Learning
情感分析 sentiment analysis
序列到序列 Sequence-to-Sequence
谱归一化 spectral normalization
标准差 standard deviation
随机梯度下降法 Stochastic Gradient Descent
步幅 stride
监督学习 supervised learning
词元 token
训练集 training set
轨迹 trajectory
迁移学习 transfer learning
无限制生成 unconditional generation
均匀分布 uniform distribution
验证集 validation set
价值函数 value funciton
梯度消失 vanishing gradient
变分自编码器 variational auto-encoder
向量量化变分自编码器 vector quantized-variational autoencoder
预热 warmup
Wasserstein GAN Wasserstein Generative Adversarial Network
支持向量机 Support Vector Machine
权重 weight
权重聚类 weight clustering
词嵌入 word embedding
零样本学习 zero-shot learning

三、机器学习找函数的步骤（Training）

1. 写一个带有未知参数的函数式（基于研究问题的领域知识）

y = wx + b (w和 b 就是未知的参数，从数据中学习得到)
这个模型叫做线性模型（Linear Model）
w：weight b:bias
这个带有未知参数的函数式就是我们说的模型（Model）
而这个x我们是已知的，把它称为feature

2.定义训练数据的Loss函数

Loss是以前面提到的两个未知参数为参数的一个函数：Loss（b，w）
Loss函数的作用是衡量这组数据的好坏
具体的机制如下：
Loss（0.5k，1） y = 0.5k + 1x
将已知的一个x代入，得到一个预测的y值 y1
y1和真实的y值（我们称之为Label）是有一定差距的
我们算出误差 e1 = |y-y1| 同理我们算出已知的所有x值对应的误差en
计算函数：计算L值
误差e有两种计算方法：
e = |y - y1| L is mean absolute error(MAE)
e = (y - y1)^2 L is mean square error(MSE)
看需求对计算方法进行选择
如果y和y1都是几率分布的，使用交叉熵（Cross-entropy）

用不同的w，b计算Loss画出等高线图，可以得到如下图的结果，我们把这种等高线图称为
Error Surface
等高线越偏红色系，说明Loss值更大，这组w，b更差，越偏蓝色系，说明Loss值越小，这组w，b越好，将这组w，b放到Model里面得到的预测值会更加精确
在这里插入图片描述

3.最佳化

找一组w，b，带到我们的Loss函数里面，让计算得到的L值最小。
w，b = arg min L
那具体怎么做呢？我们会用到Gradient Descent（梯度下降：一种一阶迭代优化算法，用于寻找可微函数的局部最小值）
我们先只看w一个变量：
在这里插入图片描述
对于不同的w，我们可以计算得出不同的L值

在这里插入图片描述

第一步：随机选取一个点w0，计算该点的微分，即得到该点斜率
第二步：判断该点斜率，如果为正，减小w，如果为负，增大w（改变的幅度我们定义一个learning rate去乘以该点斜率来确定，斜率越大改变的幅度也就越大）
机器学习中，需要我们自己去定义的变量，我们称为hyperparameters（超参数）
在这里插入图片描述
第三步：迭代更新w，直到找到斜率为0的点对应的w

这里涉及一个局部最小和全局最小的问题，局部最小是否会影响我们找到最佳的w