Mr_Happy_Li-优快云博客

原创在虚拟环境下安装GPU的torch

如图所示，我的cuda版本是12.3，下载torch的版本是向下兼容的，所以以我的例子，在cuda<=12.3的torch版本我都可以下载。等待片刻即可下载好gpu版本的torch。同理下载对应的torchvision也是一样的道理。，说明安装好的就是GPU版本的torch，如果是cpu版本的torch的话，是不带。为自己创建的环境的名字，可以自己起想要的环境名字，是通音频相关包，不搞音频的话，可以不用下载安装。是你所制定的python版本，可以自己选择。找到自己想要下载的版本，点击即可下载。

2025-02-20 20:00:00 771 2

原创多模态和大模型原理

但采样的原则是什么？通过文字“带着贝雷帽的狗”来识别出众多样本tokens，然后生成那三张带着贝雷帽的狗图片，再通过CLIP技术（也就是上图狮虎兽识别那技术），通过对生成的图片进行相似度匹配，找到相似度最高的那张图片，从而得到最终的结果。通过图像编码器和照片编码器将两者区分成N项，然后让它们相互内积，能够匹配得上的则内积值为1，不能够匹配上的则内积为-1，也就是负样本，如上图，除了对角线的正样本，周围其余的都是负样本。而CLIP不同，它是泛化能力极强的，像像素画风，可爱画风，它都能识别的出来是香蕉。

2024-11-27 20:00:00 1006

原创用Matlab和SIMULINK实现DPCM仿真和双边带调幅系统仿真

从加法器右侧输出的信号同时传递到一个新的加法器，该加法器用于累加当前误差信号与前一时刻的信号，在接收端对差分编码信号进行累加，以恢复原始信号。需要对模拟信号进行周期性扫描，将时间上连续的信号变成时间上离散的信号，根据前一个抽样值计算出一个预测值，计算当前抽样值和预测值之差，即预测误差，并对其进行量化。此外，误差信号的幅度相对较小，说明DPCM编码和解码过程产生的误差在可接受范围内，并且误差信号没有明显的规律性，表明误差不是由系统性因素引起的，而是随机分布的。同步解调依赖于载波的精确同步，成功恢复基带信号。

2024-11-24 20:00:00 3212 1

原创图像平滑处理

平滑处理的目的通常是为了消除图像中的随机噪声，减少图像中的高频成分，或者在保持图像整体外观的同时减少图像的对比度。通过图像平滑处理，可以减少或消除图像中的随机噪声，减少图像的细节，例如在压缩图像前进行平滑处理，在去除噪声的同时尽量保留图像的边缘信息。(3, 3)指定了滤波器的大小，即3x3的邻域窗口，如果是均值滤波，那么就是要（3x3）中的所有值全部加起来，然后除以9，来求得均值。高斯滤波的操作是将高斯核与图像进行卷积，即对图像中的每个像素，用其邻域内的像素值乘以对应的高斯核权重，然后求和得到新的像素值。

2024-10-24 20:00:00 1589

原创图像梯度-Sobel算子、scharrx算子和lapkacian算子

图像的梯度是指图像亮度变化的空间导数，它描述了图像在不同方向上的强度变化。在图像处理和计算机视觉中，梯度通常用来检测边缘，因为边缘往往是亮度变化最显著的地方。图像梯度可以用多种方式来计算，常见的方法包括：一阶导数（Sobel算子）、二阶导数（Laplacian算子）、Prewitt算子、Canny算子。Sobel算子是一种在图像处理和计算机视觉领域广泛使用的边缘检测算子。Sobel算子使用两个3x3的核（kernel）来分别计算图像在水平和垂直方向上的梯度。这两个核通常被称为Sobel核。

2024-10-19 20:00:00 2620

原创 Opencv形态学的膨胀操作、开运算与闭运算、梯度运算、礼帽与黑帽操作

膨胀操作也就是根据图片将边缘的一些细节给丰富，处理的程度取决于卷积核的大小还有膨胀次数。也就是腐蚀操作的相反操作（原始输入（带有毛刺）- 开运算结果（去除毛刺） = 周围的毛刺（上图）具体优化效果根据卷积核而进行调整改变。

2024-10-16 20:00:00 547

原创视觉的边界填充、数值计算和腐蚀操作

也就是说，新添加的边框上的每个像素将与原图像的最边缘像素相同。如果直接将两张照片进行相加，会出现上面的报错，报错的原因是cat的图片规格是（414,500,3） dog的图片规格是（429,499,3），他们的图片尺寸不相同，所以发生报错。可以看到两张图片的尺寸不相同，img为（500,500,3），而img2为（500,800,3）两个像素不同，必须调整为一样才可以将两者进行相加。所以，img_cat[:5, :, 0]的作用是提取图像img_cat的前5行和所有列的蓝色通道的像素值。

2024-10-15 20:00:00 922

原创图像及视频的基本操作

每个像素点的颜色都是通过调整这三种颜色的光的强度来混合得到的，而光的强度是在【0-255】如果一张图片的宽是500，高是500，那么它每一个像素点的RGB也是500x500，一般表示为【500,500,3】，这三个数分别代表着宽，高，颜色通道。例如上面那个色彩像素块，它第二行倒数第一个的色点是有红色（R）的170亮度，加绿色（G）的155亮度，加蓝色（B）的165亮度组合而成的。使用cv2.imshow()函数在窗口中显示图像，cv2.imshow()的第一个参数是窗口名称，第二个参数是要显示的图像。

2024-10-14 20:00:00 2213

原创利用GPU进行训练

如果电脑上没有GPU的话，以上这么写会发生报错，更好的写法应该是加上if判断是否有GPU。如果电脑上有两个不同的gpu，可以用以下调用第二个gpu进行训练。这样可以保证有gpu先试用gpu，没有gpu也能够正常运行。除了以上的三种，在别的地方是引用不上cuda的。可以看到没训练100次花费时间是7s。可以看到平均100次只使用1s。‘：0’的写法等同于cuda。使用方式是.cuda()

2024-10-05 20:00:00 1028 1

原创模型的深度优化

total_accuracy/test_data_size 表示计算出的测试集上的准确率（总正确预测数 / 测试集数据总量）total_test_step 表示当前测试步骤，用作 X 轴上的标记，表明该数据是在第几次测试时记录的。可以看到确实有整体数据集的信息，但是被很多乱七八遭的信息给掩盖了，所以可以改善一下代码。哪怕我们已经得到整体测试数据集上的Loss，也不能很好的说明数据集实际上的表现效果。可以直观的看到训练的模型的loss损失函数在不断的下降。可以看到计算处理整体数据集上的正确率，为32%

2024-10-03 20:00:00 873

原创完整网络模型训练（一）

torch.ones 函数用于生成一个全 1 的张量，这里的张量形状适合用于输入图像分类或卷积神经网络（CNN）中常见的 CIFAR-10 或类似的 32x32 像素图像数据。这一行代码的含义是：创建一个大小为 (64, 3, 32, 32) 的全 1 张量，数据类型为 torch.float32。learning_rate = 1e-2 这里的1e-2代表的是：1 x （10）^(-2) = 1/100 = 0.01。32, 32：这是图片的高和宽，表示每张图片的尺寸为 32x32 像素。

2024-09-30 20:00:00 1498 2

原创网络模型的保存与读取

原因是在 PyTorch 的 torchvision 库中，从版本 0.13 开始，pretrained 参数已经被弃用，取而代之的是 weights 参数。方式1保存的是模型的结构+模型的参数，方式2保存的只是模型的参数（官方推荐的保存方式）该方式1保存的网路模型不仅保存了网络模型的一种结构，它也保存了模型当中的一些参数。或者也可以用import的方法加载自己写的网络模型，那么就不需要老是复制粘贴。官方推荐的原因是当保存一个大的模型时候，方式2所用的空间更小。能够发现两者都是一样的，说明被完整加载出来。

2024-09-20 20:00:00 964

原创优化器与现有网络模型的修改

损失函数衡量的是模型预测值与真实值之间的差异，而优化器则负责通过更新模型的权重（Weights）和偏置（Biases）来减少这种差异。方法：像上面得到的是out_features=1000，我们可以进行一个新的处理，通过Linear将输入是1000，而输出为10，从而达到降类的效果。，这代码表示只是加载网络模型（也就是像之前的网络模型那样，只是加载模型，含有卷积，池化等，其中的参数都是默认的），所以它不需要下载。可以看到，通过优化器的一轮轮优化，整体的loss值会一直降低，从而达到数据优化的效果。

2024-09-19 20:02:49 759

原创损失函数和反向传播

假设代码预测图中是狗，计算得到第0号person为0.1，第1号dog为0.2，第2号cat为0.3，那么电脑预测是猫的概率更大，也就是说误差损失大。交叉熵是专门用来解决多分类问题的，当-log（x）中的x取值范围是0-1，那么当x越大，损失也就越小，也就是命中概率大，损失小。这里的-0.0478, 0.0761 等等的就是预测概率，跟上面的0.1， 0.2，0.3一样。最后的 3 表示数据点的数量，这里是三个元素【1 , 2，3】。其中，x 是模型的输出，y 是真实值，n 是样本数量。

2024-09-14 20:00:00 1362

原创 Sequential的使用和搭建实战

Sequential是按顺序构建网络：所有的层都按添加的顺序连接，因此可以很容易地构建具有线性堆叠结构的网络模型。由CIFAR 10 model结构图可以得知Output需要32，从而通过下面的式子计算出padding和stride的参数，这里默认dilations空洞卷积参数为1，若把stride设置成1，那么求得padding的值为2，从而得到上面的参数。可以看到也不会发生报错，这样子我们无法识别搭建的网络是否出现错误，这时候我们可以通过一个假想输入来进行判断。，表示代码错误的情况。

2024-09-13 20:43:54 910

原创神经网络的非线性激活

神经网络的非线性激活函数的主要作用是引入非线性变换，从而使网络能够学习和逼近复杂的函数关系。在神经网络中，线性变换（如矩阵乘法）能够将输入数据映射到不同的空间，但是如果仅使用线性变换，网络无法学习到数据的复杂模式或非线性关系。加入非线性激活函数后，网络能够通过层叠多个非线性层，学习复杂的函数映射，从而提高模型的表达能力。当为False时，Input的值不会发生改变，而是用了一个新的Output的值来继承这个-1。当值是True时，-1会像上面nn.ReLU内容中会折算成0，但是输出的地方就会有所不同。

2024-09-11 20:56:18 669

原创神经网络卷积层和最大池化

神经网络卷积层与最大池化

2024-09-10 20:17:29 1266 1

原创神经网络卷积操作

神经网络学习

2024-09-09 18:39:53 583

原创神经网络骨架nn.Module

nn.Module 是 PyTorch 中的一个核心类，它是所有神经网络模块的基类。在 PyTorch 中构建模型时，通常会继承这个类来创建自定义的网络结构。nn.Module 提供了一系列用于构建神经网络的工具和方法,注：这是因为将一个值为 1.0 的张量 x 传递给模型，模型将其增加 1，所以输出是 2.0。进行一个非常简单的操作：对输入数据加1。

2024-09-07 16:03:35 550

原创 DataLoader使用

DataLoader相关使用

2024-09-07 10:30:06 1376

原创 torchvision数据集使用

最下面的 3 表示类名classes的第三项，也就是[‘airplane’, ‘automobile’, ‘bird’, ‘cat’, ‘deer’, ‘dog’, ‘frog’, ‘horse’, ‘ship’, ‘truck’] 中列表的第三项 “cat”4.step into my code（Alt+Shift+F7快捷键）：单步执行，只进入自己代码的子函数，不会进入导入包的子函数。如果一直按F7，则会一层层一直进入。复制蓝色的链接，还可以在迅雷中添加链接进行下载，这样子下载的速度可能相对较快。

2024-09-05 20:34:00 1024