- 博客(6)
- 收藏
- 关注
原创 weight decay(权重衰减)【即“正则化”】
先附上两张李宏毅的ppt(对L2正则化的推导)看了这两张图:所以weight decay就是正则化。正则化怎么来的?源头就在于LOSS的改变!!!其中参数λ是控制L2正则化强度的超参数,λ 设置得越大,对大的权重施加的惩罚就越重。(1)正则化分L1正则化和L2正则化和L∞正则化L1正则化会使一些特征的权重变为0,比如你有100个特征,它可能会让40个特征的权重为0,换句话说,抛弃了一些无用的特征。这听上去就很有用,100个特征估计有60个都是无用的特征或噪音,这时候L1正则化就可
2022-03-28 21:24:14
2260
原创 anaconda虚拟环境下布置Pytorch、CUDA记录
ld not remove or rename C:\Users\Chen\anaconda3\pkgs\pytorch-1.7.1-py3.7_cuda110_cudnn8_0\Lib\site-packages\caffe2\python\caffe2_pybind11_state.cp37-win_amd64.pyd. Please remove this file manually (you may need to reboot to free file handles)
2022-03-17 18:35:34
3843
10
原创 (原创、不是重复文章)GPU Memory Usage占满而GPU-Util却为0的情况
一句话:在你的一个batch的数据都没加载进GPU内存前,你的GPU可能已经被占用了好几个G了,这几个G的数据就是你的model本身所需要的内存。在你代码启动的那一刻,pytorch开始加载model,你的模型的复杂程度导致所需要的参数数量不一致,而这些参数所占用的内存不是用的系统内存,而是用你的GPU内存(即显存)。先不讲其它文章提到的batch_size 、num_workers等等参数的调整。如果你的model够复杂,可能根本等不到加载到batch的那一刻内存就已经所剩无几了。所以为什么GP.
2022-03-17 18:20:04
3982
5
原创 (原创、不是重复文章)xxx GiB reserved in total by PyTorch的问题
(本文和别的重复的文章不一样)xxx GiB reserved in total by PyTorch的问题
2022-03-17 17:52:32
24673
14
原创 关于指针指向地址中“指向”二字的理解
为什么要写这文章?因为对于这个问题:“定义int* p;系统会给p分配内存空间吗?”绝大部分回答都是不会。但是问题来了,刷网课的时候,看到会为p在栈上开辟内存空间。由此,我开始了思考并最终写下这篇博文。先来看两个问题:(32位系统下)Q1:int a; 有没有为a分配内存呢?A1:编译器会随机取出一个空闲的地址分配给a,不妨设为0x00000000,该地址指向一个4个字节的内存空间,所以会分配内存。但是这4个字节用来存储什么呢?当然是a的值啦Q2:int*p;有没有为..
2021-05-07 19:26:47
741
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人