0815个人学习日志

最新推荐文章于 2025-12-02 11:29:21 发布

原创最新推荐文章于 2025-12-02 11:29:21 发布 · 336 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#学习 #深度学习 #人工智能

部署运行你感兴趣的模型镜像

1. 在VGG论文中，Simonyan和Ziserman尝试了各种架构。发现深层且窄的卷积（即3×3）比较浅层且宽的卷积更有效。
（1）参数量显著减少：3×3 卷积核的参数量远低于同感受野大尺寸卷积核。例如，两个 3×3 卷积层（共 18 个参数）的感受野等效于一个 5×5 卷积层（25 个参数），但参数量减少约 28%。若替换为 7×7 卷积，三个 3×3 卷积层（27 个参数）的感受野与 7×7 卷积（49 个参数）相同，但参数量减少 45%。这种参数压缩不仅降低了过拟合风险，还减少了存储和计算开销。

（2）计算效率提升：参数数量减少，带来了计算量的衰减。

（3）非线性表达能力的增强：同感受野下，较小的卷积核意味着卷积层更多，可以插入更多的非线性映射函数。

（4）增加了细节与层次优化：多个小卷积层的堆叠逐步扩大感受野，这种设计在保持全局语义信息的同时，通过逐层细化局部特征，避免了大卷积核对细节的模糊处理；随着层数的叠加使网络能从低级边缘特征逐步过渡到高级语义特征。

（！）1×1 卷积虽能增加线性变换，但缺乏空间上下文建模能力，导致性能逊于全 3×3 架构。

2. 在numpy创建的数据默认类型为float 64，而在pytorch创建的数据默认类型为float 32。如果在需要把numpy数据转换成torch类型时，需要手动对齐数据类型，避免因为数据类型不同而不可计算。

3. 加性注意力（Additive Attention）其分数通过类似单层感知机的结构计算，将查询和键映射到同一空间后相加，再经非线性激活和线性变换。

其分数的计算引入了非线性压缩（tanh） 和参数化映射，天然限制了分数的极端值，使得分数分布更平缓，最终权重更均匀。

而点积注意力（Dot-Product Attention）其分数直接通过查询（q）和键（k）的点积计算（其中 dk 是键 / 查询的维度，缩放是为了缓解高维时的数值膨胀）。

点积的本质是 “向量相似度的直接度量”，其分数的数值范围受输入维度和元素分布影响较大；这种 “两极分化” 的分数分布，经过 softmax 后会被进一步放大。从而呈现出高度注意力效果。

点积注意力因计算效率更高（可通过矩阵乘法并行实现）被广泛用于 Transformer 等模型；而加性注意力的均匀性在某些场景（如需要关注多个相关元素时）可能更有优势，但计算成本更高。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。