从softmax到ArcFace

最新推荐文章于 2024-09-06 17:56:55 发布

杯酒和雪

最新推荐文章于 2024-09-06 17:56:55 发布

阅读量866

点赞数 1

分类专栏：深度学习文章标签：深度学习人脸识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/hu378910532/article/details/105419866

版权

0. softmax
$\sigma_i(z)=\frac{e^{z_i}}{\sum_{j=1}^{m}e^{z_j}}$

其中， $e^x$ 的作用：

对 $x$ 取exp变为非负数，避免正负值抵消
更容易达到终极目标one-hot形式，或者说，softmax降低了训练难度，使得多分类问题更容易收敛。 Softmax鼓励真实目标类别输出比其他类别要大，但并不要求大很多。（参考链接： https://zhuanlan.zhihu.com/p/34404607 ）

1. softmax loss
$L_1 = - \frac{1}{m}\sum_{i=1}^{m}log\frac{e^{W^T_{y_i}x_i+b_{y_i}}}{\sum_{j=1}^{n} e^{W_j^Tx_i + b_j}}$

其中，特征的维度 $d$ 为512， $m$ 是batch size； $n$ 是 class number； $x_i\in \mathbb{R}^d$ 表示第 $i$ 个输入样本，属于 $y_i$ 类；

$W_j\in \mathbb{R}^{d}$ 表示最后一层全连接层的权重 $W\in \mathbb{R}^{d\times n}$ 的第 $j$ 列， $b\in \mathbb{R}^n$ 是偏置项。

缺点： softmax loss 没有显式66的优化features，使其对正配对的相似度评分更高，负配对的相似度评分更低，从而导致性能不高。

2.权重归一化 A-Softmax loss

权重归一化做了两件事情(1) $b_j=0$ (2) $W_j^Tx_i=||W_j||\ ||x_i||\ cos\theta_j$

最低0.47元/天解锁文章

博客等级

码龄15年

13
原创

18
点赞

63
收藏

5
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

pytorch一机多卡训练
杯酒和雪回复 qq_35018587: DDP处理的之后就不用DataParallel了，示例代码是在上面一部分直接改的，已经改过来了。
pytorch一机多卡训练
qq_35018587: [code=python] model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[local_rank], output_device=local_rank) if torch.cuda.device_count() > 1: model = nn.DataParallel(model) [/code] 请问为什么这里先用了DistributedDataParallel然后又要用一下DataParallel呢？？？
pytorch一机多卡训练
杯酒和雪回复 scorpiowzq: DataParallel和DistributedDataParallel两者都可以模型并行训练，但是DistributedDataParallel实现相对复杂一些，相应的好处是可以利用更多的资源。DataParallel单机多卡训练的时候多卡显存占用不均会导致大模型训练实际效率不高，而DistributedDataParallel就没有这个问题
pytorch一机多卡训练
scorpiowzq: 为什么1.2的代码64行不是用distributed，还是用 model = nn.DataParallel(model)

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。