LN和BN的区别
Batch Normalization是对一个batch进行归一化操作,是对于一个batch中一列的数据进行归一化。例如[[x_1, y_1, z_1], [x_2, y_2, z_2]],batch normalization 会对x_1和x_2进行归一化。
BN是在batch size样本上各个维度做标准化的,所以size越大肯定越能得出合理的μ和σ来做标准化,因此BN比较依赖size的大小。
Layer Normalization是对一个行进行归一化,也就是[x_1, y_1, z_1]。Layer normalization在nlp和rnn中应用更多。
RNN是一个动态的网络,也就是size是变化的,可大可小,造成多样本维度都没法对齐,所以不适合用BN,只能使用LN
交叉熵
对于二分类问题,假设有一个样本的真实标签为 𝑦(0 或 1),模型的预测概率为
𝑝(预测为类1的概率),则交叉熵损失函数可以表示为:
H(y,p)=−[y⋅log( p )+(1−y)⋅log(1−p)]
在多分类问题中,假设有 𝐶 类,真实标签的独热编码为 𝑦𝑖(在类 𝑖 时为1,其余为0),模型输出的预测概率为 𝑝𝑖 ,则交叉熵损失函数为:
交叉熵刻画的是两个概率分布之间的距离,或可以说它刻画的是通过概率分布q来表达概率分布p的困难程度,p代表正确答案,q代表的是预测值,交叉熵越小,两个概率的分布约接近。
Softmax
Softmax 函数通过将任意实数向量转换为概率分布,常用于解决分类问题。
Softmax 的特性
输出范围:Softmax 的输出值在 (0,1) 范围内,且所有输出值的和为 1,因此可以被解释为概率。
增强差异:Softmax 会放大较大的输入值,并压缩较小的输入值,使得输出更倾向于最大值对应的类别。
import torch
# 模拟输入 logits
logits = torch.tensor([2.0, 1.0, 0.1])
# 计算 Softmax
softmax_output = torch.softmax(logits, dim=0)
print("Softmax Output:", softmax_output)
print("Sum of Softmax Output:", softmax_output.sum().item()) # 应为1
交叉熵torch实现
此处参考博文
import numpy as np
import torch
# 分类标签[2, 0, 1] 映射成独热编码
def labels_to_one_hot(label, dim):
# label 标签,dim 特征数
hot_encode = np.zeros((len(label), dim))
hot_encode[np.arange(len(label)), label] = 1
return hot_encode
Y = np.array([2, 0, 1])
Y_pred = np.array([[0.8, 0.2, 0.3],
[0.2, 0.3, 0.5],
[0.2, 0.2, 0.5]])
one_hot = labels_to_one_hot(Y, Y_pred.shape[1])
print(one_hot)
loss = 0
# 分别对每个样本求loss
for y, y_pred in zip(one_hot, Y_pred):
# soft_max
soft_y_pred = np.exp(y_pred) / np.exp(y_pred).sum()
# 累加loss
loss += (-y * np.log(soft_y_pred)).sum()
print(loss / 3) # 求均值
可以看到pytorch中的交叉熵代码为
def cross_entropy(input, target, weight=None, size_average=None, ignore_index=-100,
reduce=None, reduction='mean'):
# type: (Tensor, Tensor, Optional[Tensor], Optional[bool], int, Optional[bool], str) -> Tensor
if size_average is not None or reduce is not None:
reduction = _Reduction.legacy_get_string(size_average, reduce)
return nll_loss(log_softmax(input, 1), target, weight, None, ignore_index, None, reduction)
Sigmoid
ReLU
多头注意力机制
关于注意力机制