- 博客(29)
- 收藏
- 关注
原创 U-net系列算法
U-net++是U-net的升级版,它在特征融合方面更进了一步,把能拼接的特征都利用起来,和densenet的思想有些相似。这就好比在拼图,U-net++把更多的碎片拼在一起,让图像分割的结果更加准确。另外,U-net++在剪枝上也很有优势,因为前面有单独的监督训练,所以可以根据速度要求快速完成剪枝,训练时结合多层的监督,效果相当不错。从U-net的基础架构,到U-net++在特征融合和监督训练上的优化,再到U-net+++独特的特征整合方式,每一步都在推动着图像识别技术的进步。
2025-03-21 11:02:13
306
原创 图像分割:技术、应用与评估
在神奇的计算机视觉领域,图像分割技术正发挥着关键作用。今天,就带大家深入了解一下这项有趣又实用的技术。1.图像分割,简单来说,就是预测目标的轮廓,把不同像素划分到不同类别,是一种很精细的分类。打个比方,在一张风景照片里,它能精准区分出天空、草地、人物、建筑等元素,让计算机“看清”图像的每个部分。2.图像分割的应用场景非常广泛。比如在摄影后期,人像抠图就用到了图像分割技术,能轻松把人物从背景中分离出来,方便更换各种创意背景。医学领域,它可以提取医学组织,帮助医生更清晰地观察病变组织。
2025-03-20 18:07:59
318
原创 PyTorch手写数字识别
基于PyTorch的手写数字识别项目实践在机器学习的应用中,手写数字识别是一个经典且有趣的项目。最近我基于PyTorch框架完成了一个手写数字识别项目,和大家分享一下。
2025-03-06 11:42:03
201
原创 数据集构建网络
此外,贾斯珀·斯诺克(Jasper Snoek)有一篇新论文,他在其中使用贝叶斯超参数优化来找到权重衰减和其他超参数的良好设置,这使他能够使用达到18%误差率的网络架构,在不进行数据增强的情况下获得15%的测试误差率。数组的前1024个条目包含红色通道的值,接下来的1024个是绿色通道的值,最后的1024个是蓝色通道的值。前1024个字节是红色通道的值,接下来的1024个是绿色通道的值,最后的1024个是蓝色通道的值。训练批次包含其余的随机排列的图像,但某些训练批次中某一类别可能比其他类别包含更多的图像。
2025-03-03 19:23:28
901
原创 图像分类项目
还有P-R曲线和ROC曲线,P-R曲线中召回率上升时精度往往下降,曲线与坐标轴围成的面积越大,模型越出色,但它对正负样本不均衡比较敏感。ROC曲线横坐标是假正率(FPR),纵坐标是真正率(TPR),它对样本不均衡不敏感,曲线越靠近左上角,模型性能越好。对于多类别分类,混淆矩阵是个k*k的矩阵,主对角线元素之和越大,分类器准确率越高。再进阶一点是子类细粒度图像分类,要在同一大类中细分,比如分辨不同品种的狗。网络宽度则是每一个网络层的通道数,以卷积网络层计算,LeNet网络的C1层通道数是6,C3层是16。
2025-02-28 09:45:16
266
原创 Pytorch和TensorBoard
1.torchvision是处理图像数据的得力助手,里面的transforms模块,能对图像进行各种操作。在训练循环里,用add_Scalar记录每个训练步骤的损失值,训练完查看图表,就能知道模型训练得好不好。还能查看模型里各层的特征图,理解模型怎么处理图像,在代码里遍历模型各层,对卷积层的输出用add_image展示特征图就行。用的时候,先定义好对图像的预处理操作,再用datasets.ImageFolder加载数据,最后用DataLoader批量处理,就能高效训练模型。掌握这些,图像识别技术的大门。
2025-02-27 11:32:18
148
原创 PyTorch数据处理
想象一下,你有一堆数据卡片,DataLoader能把它们一沓一沓整理好,还能按你的要求打乱顺序,不过要注意,它本身不是迭代器,需要用iter命令转换一下才能像迭代器一样使用。比如,用add_graph可以把神经网络的结构清晰地展示出来,你能看到每一层的样子;还有可视化特征图,能让你看到图像数据在模型各层中的变化,理解模型是怎么提取特征的。举个简单的例子,定义一个TestDataset类,继承Dataset,在里面准备好数据和标签,再写好__getitem__和__len__方法,就能轻松获取数据样本。
2025-02-26 17:01:15
285
原创 Pytorch神经网络-第二篇
nn.Module很智能,继承它就能自动找到那些能学习的参数,像卷积层、全连接层这些都能用它来构建。两者区别也挺明显,nn.Module在实例化后使用方便,还能和nn.Sequential配合得很好,参数管理也不用咱们操心;nn.functional则更灵活,但每次调用都得手动传入参数,不太利于代码复用,dropout操作时也没有自动转换状态的功能。最后把结果可视化,这样就能直观地评估模型表现。总结,Pytorch神经网络工具箱功能强大,从基础组件到模型构建,再到训练和测试,每个环节都有丰富的工具和方法。
2025-02-25 11:18:54
298
原创 Pytorch神经网络工具箱入门指南
在掌握了基本的模型构建方法后,我们可以进一步自定义网络模块,如残差块(ResNet)等,以构建更复杂的网络结构。结合使用nn.Module基类和模型容器:这种方法结合了前两种方法的优点,既具有灵活性,又能简化模型构建过程。本文将带你深入了解Pytorch神经网络工具箱的核心组件和构建模型的基本方法,让你轻松上手,打造属于自己的神经网络模型。在Pytorch中,构建模型的方法主要有三种:继承nn.Module基类、使用nn.Sequential按层顺序构建、以及结合使用nn.Module基类和模型容器。
2025-02-24 16:59:35
125
原创 卷积神经网络2
与LeNet相比,AlexNet在卷积层的设计上更加复杂。它使用了更大的卷积核和步长,例如11×11卷积层,步长为4,这使得模型在处理图像时能够更快地缩小特征图尺寸,减少计算量的同时,保留关键的图像特征。3×3卷积层的选择并非偶然,相比更大尺寸的卷积核,3×3卷积层在保持感受野大小的同时,能够显著减少参数数量,降低计算复杂度,提高模型训练效率。通过不断增加网络深度,VGG网络可以逐步从底层的边缘、颜色等像素特征,学习到中层的纹理、形状特征,最终提取出高层的语义特征,从而实现对图像的精准分类和识别。
2025-02-21 12:52:52
593
原创 卷积神经网络
VGG网络的设计理念强调使用小卷积核和更多的卷积层来代替大卷积核,这样不仅可以减少参数数量,还能在不增加计算量的前提下提高网络的深度,从而学习到更高级的图像特征。在图像识别过程中,池化层能够保留图像中最重要的特征,例如在识别物体形状时,最大池化层可以突出图像中亮度较高、特征明显的部分,而平均池化层则可以更关注图像区域的整体特征,二者在不同场景下都有着重要的应用价值。在简单的卷积运算示例中,通过特定的卷积核与输入数据的运算,能得到相应的输出结果。每个通道都有对应的卷积核,最终的输出是所有通道卷积结果的和。
2025-02-21 12:18:31
345
原创 多层感知机
其中,感知机使用的是阶跃函数,它以0为界,输入超过0输出1,否则输出0。然而,感知机并非万能的,它存在局限性,只能表示由一条直线分割的空间,面对异或门这种线性不可分的逻辑关系时就无能为力了。训练误差是模型在训练数据集上的误差,泛化误差则是模型在新数据集上的误差。感知机和多层感知机作为图像识别技术的重要基础,从简单的线性模型到复杂的非线性模型,展现了深度学习模型不断发展和演进的过程。通过对它们的深入了解,我们能更好地理解深度学习的原理和应用,为未来在图像识别及其他相关领域的研究和创新打下坚实的基础。
2025-02-21 12:15:51
417
原创 线性回归与Softmax回归
在机器学习领域,回归和分类是两类基础且重要的任务。2. Softmax函数:\( \hat{y}_i = \frac{\exp(o_i)}{\sum_j \exp(o_j)} \)- 归一化:\( \hat{y}_i = \frac{\exp(o_i)}{\sum_j \exp(o_j)} \)。- **模型**:输入层784个神经元(对应像素),输出层10个神经元(对应类别),使用Softmax回归和交叉熵损失。- **分类**:输出离散类别(如图像分类),需要模型输出每个类别的置信度。
2025-02-21 12:13:04
390
原创 走进图像识别与人工智能的奇妙世界
目标检测和分割、人脸合成、机器翻译、图像描述、自然语言文本合成等领域,深度学习也取得显著成果,如谷歌大脑团队的神经网络识别猫、微软的ResNet在图像识别准确度上超越人类、alphaGo战胜围棋高手等。处理图像数据时,照片是样本,像素数值序列是特征。它的发展历程宛如一部波澜壮阔的史诗,从机械化时代、电气化时代,再到信息化时代,最终迈向人工智能时代。人工智能先驱艾伦·麦席森·图灵提出,如果在不接触对方的情况下,通过问答,在相当长时间内,测试者无法判断对方是人还是计算机,那么这台计算机就被认为具有人类智能。
2025-02-21 12:10:48
313
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人