算法面经-深度学习

LN和BN的区别

Batch Normalization是对一个batch进行归一化操作,是对于一个batch中一列的数据进行归一化。例如[[x_1, y_1, z_1], [x_2, y_2, z_2]],batch normalization 会对x_1和x_2进行归一化。
BN是在batch size样本上各个维度做标准化的,所以size越大肯定越能得出合理的μ和σ来做标准化,因此BN比较依赖size的大小。

Layer Normalization是对一个行进行归一化,也就是[x_1, y_1, z_1]。Layer normalization在nlp和rnn中应用更多。
RNN是一个动态的网络,也就是size是变化的,可大可小,造成多样本维度都没法对齐,所以不适合用BN,只能使用LN

交叉熵

对于二分类问题,假设有一个样本的真实标签为 𝑦(0 或 1),模型的预测概率为
𝑝(预测为类1的概率),则交叉熵损失函数可以表示为:

H(y,p)=−[y⋅log( p )+(1−y)⋅log(1−p)]

在多分类问题中,假设有 𝐶 类,真实标签的独热编码为 𝑦𝑖(在类 𝑖 时为1,其余为0),模型输出的预测概率为 𝑝𝑖 ,则交叉熵损失函数为:
交叉熵刻画的是两个概率分布之间的距离,或可以说它刻画的是通过概率分布q来表达概率分布p的困难程度,p代表正确答案,q代表的是预测值,交叉熵越小,两个概率的分布约接近。

Softmax

Softmax 函数通过将任意实数向量转换为概率分布,常用于解决分类问题。
Softmax 的特性

输出范围:Softmax 的输出值在 (0,1) 范围内,且所有输出值的和为 1,因此可以被解释为概率。
增强差异:Softmax 会放大较大的输入值,并压缩较小的输入值,使得输出更倾向于最大值对应的类别。

import torch

# 模拟输入 logits
logits = torch.tensor([2.0, 1.0, 0.1])

# 计算 Softmax
softmax_output = torch.softmax(logits, dim=0)

print("Softmax Output:", softmax_output)
print("Sum of Softmax Output:", softmax_output.sum().item())  # 应为1

交叉熵torch实现

此处参考博文

import numpy as np
import torch


# 分类标签[2, 0, 1] 映射成独热编码
def labels_to_one_hot(label, dim):
    # label 标签,dim 特征数
    hot_encode = np.zeros((len(label), dim))
    hot_encode[np.arange(len(label)), label] = 1
    return hot_encode


Y = np.array([2, 0, 1])
Y_pred = np.array([[0.8, 0.2, 0.3],
                   [0.2, 0.3, 0.5],
                   [0.2, 0.2, 0.5]])
one_hot = labels_to_one_hot(Y, Y_pred.shape[1])
print(one_hot)
loss = 0
# 分别对每个样本求loss
for y, y_pred in zip(one_hot, Y_pred):
    # soft_max
    soft_y_pred = np.exp(y_pred) / np.exp(y_pred).sum()
    # 累加loss
    loss += (-y * np.log(soft_y_pred)).sum()
print(loss / 3)  # 求均值

可以看到pytorch中的交叉熵代码为

def cross_entropy(input, target, weight=None, size_average=None, ignore_index=-100,
                  reduce=None, reduction='mean'):
    # type: (Tensor, Tensor, Optional[Tensor], Optional[bool], int, Optional[bool], str) -> Tensor

    if size_average is not None or reduce is not None:
        reduction = _Reduction.legacy_get_string(size_average, reduce)
    return nll_loss(log_softmax(input, 1), target, weight, None, ignore_index, None, reduction)

Sigmoid

ReLU

多头注意力机制

关于注意力机制

AUC

Adam

dropout

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值