君亦君兮-优快云博客

原创 RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling cublasSgemm( handle, opa, opb, m,

具体原因仍未知，但我打印出了 query，w_q，b_q 这些量的形状，已确保是正确的，但仍不行。此文为作者在实际跑代码中所遇到的问题，然后尝试了多种方法后找到了一种可行方案，仅供参考。尝试使用 torch.matmul 手动实现这个线性变换操作。

2024-12-17 16:06:53 283

原创 ResNet学习笔记

Batch Normalization是指批标准化处理，将一批数据的feature map满足均值为0，方差为1的分布规律。简而言之，就是计算一个Batch数据的feature map然后再进行标准化（batch越大越接近整个数据集的分布，效果越好），计算公式如下：根据上图的公式可以知道代表着我们计算的feature map每个维度（channel）的均值，

2023-09-13 11:01:59 173

但是，若使用的是same convolution时就不一样了，假定步长为1，当在一个宽。如果k为奇数的话，补的这k-1个0可以在两侧对称分布，如果是偶数则不然。② Sigmoid的导数只有在0附近的时候有比较好的激活性，在正负饱和区的梯度都接近。注：全连接层的参数量占了总参数量的90%以上，对全连接层进行改进将有效减少参数量。于0，所以这会造成梯度弥散，而ReLU函数在大于0的部分。：（论文中写的输入为224×224，但实际为227×227），即在输入是负值的情况下，它会输出0，那么神经元就不会被。

2023-09-09 16:38:44 123

原创卷积ReLU池化上下采样全连接

对于一幅图像I尺寸为M*N，对其进行s倍下采样，即得到(M/s)*(N/s)尺寸的得分辨率图像，当然s应该是M和N的公约数才行，如果考虑的是矩阵形式的图像，就是把原始图像s*s窗口内的图像变成一个像素，这个像素点的值就是窗口内所有像素的均值。全连接层的每个神经元都与前一层的所有神经元相连，因此得名全连接。总之，全连接层是神经网络中非常重要的一种层，它负责将前一层的特征提取结果映射到最终的输出或预测结果。全连接层的输出可以是一个向量，表示类别的概率分布，也可以是一个实数值，表示回归问题中的预测结果。

2023-09-07 14:03:56 359