算法面经-深度学习

最新推荐文章于 2025-12-14 12:39:05 发布

原创最新推荐文章于 2025-12-14 12:39:05 发布 · 843 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #深度学习 #人工智能

算法面经-深度学习

LN和BN的区别
交叉熵
- Softmax
- - 交叉熵torch实现
Sigmoid
ReLU
多头注意力机制
AUC
Adam
dropout

LN和BN的区别

Batch Normalization是对一个batch进行归一化操作，是对于一个batch中一列的数据进行归一化。例如[[x_1, y_1, z_1], [x_2, y_2, z_2]]，batch normalization 会对x_1和x_2进行归一化。
BN是在batch size样本上各个维度做标准化的，所以size越大肯定越能得出合理的μ和σ来做标准化，因此BN比较依赖size的大小。

Layer Normalization是对一个行进行归一化，也就是[x_1, y_1, z_1]。Layer normalization在nlp和rnn中应用更多。
RNN是一个动态的网络，也就是size是变化的，可大可小，造成多样本维度都没法对齐，所以不适合用BN，只能使用LN

交叉熵

对于二分类问题，假设有一个样本的真实标签为 𝑦（0 或 1），模型的预测概率为
𝑝（预测为类1的概率），则交叉熵损失函数可以表示为：

H(y,p)=−[y⋅log( p )+(1−y)⋅log(1−p)]

在多分类问题中，假设有 𝐶 类，真实标签的独热编码为 𝑦𝑖（在类 𝑖 时为1，其余为0），模型输出的预测概率为 𝑝𝑖 ，则交叉熵损失函数为：
交叉熵刻画的是两个概率分布之间的距离，或可以说它刻画的是通过概率分布q来表达概率分布p的困难程度，p代表正确答案，q代表的是预测值，交叉熵越小，两个概率的分布约接近。

Softmax

Softmax 函数通过将任意实数向量转换为概率分布，常用于解决分类问题。
Softmax 的特性

输出范围：Softmax 的输出值在 (0,1) 范围内，且所有输出值的和为 1，因此可以被解释为概率。
增强差异：Softmax 会放大较大的输入值，并压缩较小的输入值，使得输出更倾向于最大值对应的类别。

import torch

# 模拟输入 logits
logits = torch.tensor([2.0, 1.0, 0.1])

# 计算 Softmax
softmax_output = torch.softmax(logits, dim=0)

print("Softmax Output:", softmax_output)
print("Sum of Softmax Output:", softmax_output.sum().item())  # 应为1

交叉熵torch实现

此处参考博文

import numpy as np
import torch


# 分类标签[2, 0, 1] 映射成独热编码
def labels_to_one_hot(label, dim):
    # label 标签，dim 特征数
    hot_encode = np.zeros((len(label), dim))
    hot_encode[np.arange(len(label)), label] = 1
    return hot_encode


Y = np.array([2, 0, 1])
Y_pred = np.array([[0.8, 0.2, 0.3],
                   [0.2, 0.3, 0.5],
                   [0.2, 0.2, 0.5]])
one_hot = labels_to_one_hot(Y, Y_pred.shape[1])
print(one_hot)
loss = 0
# 分别对每个样本求loss
for y, y_pred in zip(one_hot, Y_pred):
    # soft_max
    soft_y_pred = np.exp(y_pred) / np.exp(y_pred).sum()
    # 累加loss
    loss += (-y * np.log(soft_y_pred)).sum()
print(loss / 3)  # 求均值

可以看到pytorch中的交叉熵代码为

def cross_entropy(input, target, weight=None, size_average=None, ignore_index=-100,
                  reduce=None, reduction='mean'):
    # type: (Tensor, Tensor, Optional[Tensor], Optional[bool], int, Optional[bool], str) -> Tensor

    if size_average is not None or reduce is not None:
        reduction = _Reduction.legacy_get_string(size_average, reduce)
    return nll_loss(log_softmax(input, 1), target, weight, None, ignore_index, None, reduction)