自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 面向对象

Scala 有两种包的管理风格,一种方式和 Java 的包管理风格相同,每个源文件一个包(包名和源文件所在路径不要求必须一致),包名用“.”进行分隔以表示包的层级关系。(3)protected 为受保护权限,Scala 中受保护权限比 Java 中更严格,同类、子类可以访问,同包无法访问。println(s"辅助构造器(传入标题:$title,作者:$author,页数:$pages)被调用")(1)辅助构造器,函数的名称 this,可以有多个,编译器通过参数的个数及类型来区分。

2025-04-02 17:22:50 693

原创 【无标题】

(Int, Int)表示输入两个Int参数;当函数返回值被声明为 lazy 时,函数的执行将被推迟,直到我们首次对此取值,该函数才会执行。// 定义一个接收函数作为参数的高阶函数,该参数函数接收一个Int类型参数,返回Int类型结果。// (3)将multiply函数作为参数传递给f1函数,如果能够推断出来不是调用,可以省略。(1)闭包:如果一个函数,访问到了它的外部(局部)变量的值,那么这个函数和他所处的环境,称为闭包。println("爱好: " + hobbies.mkString(", "))

2025-04-01 14:14:09 875

原创 循环控制的内容

Scala 内置控制结构特地去掉了 break 和 continue,是为了更好的适应函数式编程,推荐使用函数式的风格解决break 和continue 的功能,而不是一个关键字。需求:倒序打印数组 Array(5, 10, 15, 20, 25) 中的元素。需求:将原集合中所有整数加 3 ,并把结果返回到一个新的集合中。需求:采用异常的方式,在遍历数组时,遇到特定元素就退出循环。需求:输出 1 到 10 中,不等于 6 的偶数的值。需求:输出2到20以内,以3为步长的所有数。

2025-03-31 17:36:43 534

原创 scala的基本介绍

Scala的设计秉承一项事实,即在实践中,某个领域特定的应用程序开发往往需要特定于该领域的语言扩展。1、区分大小写-Scala是大小写敏感的,这意味着标识Hello 和 hello在Scala中会有不同的含义。1、对象 -对象有属性和行为。1、优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。2、Java标准库: 可以使用 Java 的标准库和框架,利用其丰富的生态系统。1、类型推断:强大的类型推断机制,可以减少代码中的类型声明,提高代码的可读性。

2025-03-27 09:35:33 403

原创 语义分割内容

2. U-net++:整体网络结构实现更全面的特征融合与拼接,与densenet思想一致。具有易剪枝的优势,可依据速度要求快速完成剪枝,训练时使用L4效果良好。3. U-net+++:不同的max pool用于整合低阶特征(如轮廓),上采样整合高阶特征(感受野大、全局性的)。各层统一用卷积得到64个特征图,最终组合获得全部特征,此部分只需了解。1. U-net:整体结构为编码解码过程,简单实用且应用广泛,最初用于医学方向。主要网络结构引入特征拼接操作,摒弃以往单纯的加法运算,能有效完成分割任务。

2025-03-21 10:33:48 386

原创 图像分割内容

5000张精细标注的图像(2975张训练图、500张验证图和1525张测试图)、20000张粗略标注的图像。3、COCO数据集:以场景理解为目标,特别选取比较复杂的日常场景。典型的图像分割网络由卷积网络(编码器)和解码器(反卷积网络)组成,编码器负责提取特征,解码器利用这些特征生成最终的分割结果。实例分割:只预测前景目标的类别属性以及边框,个体ID,每一个像素可以属于多个ID。2、应用场景:人像抠图,医学组织提取,遥感图像分析,自动驾驶,材料图像等。4、三层境界:语义分割、实例分割、全景分割。

2025-03-20 10:53:25 566

原创 图像识别技术与应用第十八课

(2)损失函数必须考虑三个几何因素: 重叠面积 , 中心点距离 , 长宽比,其中α可以当做权重参数。(1)比较好理解 , 坐标回归预测值都在0-1之间 , 此时就需要非常大的数值才可以达到边界。(1)亲民政策 , 单GPU就能训练的非常好 , 接下来很多小模块都是这个出发点。(1)V3中为了更好满足不同输入大小 , 训练的时候要改变输入数据的大小。(3)注意力机制 , 网络细节设计 ,特征金字塔等 , 你能想到的全有。(1)神经网络最大的缺点: 自觉不错(过拟合) , 让它别太自信。

2025-03-14 10:45:05 537

原创 图像识别技术与应用第十七课

(2)13*13特征图上:(116x90),(156x198),(373x326)26*26特征图上:(30x61),(62x45),(59x119)52*52特征图上:(10x13),(16x30),(33x23)(1)终于到V3了,最大的改进就是网络结构,使其更适合小目标检测。(2)特征做的更细致,融入多持续特征图信息来预测不同规格物体。(3)先验框更丰富了,3种scale,每种3个规格,一共9种。(1)YOLO-V2中选了5个,这回更多了,一共有9种。(3)3种scale,更多先验框。

2025-03-13 10:21:27 467

原创 图像识别技术与应用第十六课

3、网络架构:基于GoogLeNet修改,有20层,输出7×7×30的张量,代表每个网格预测的2个Bounding boxes和20个类别概率等信息。2、核心思想:把输入图像划分成S×S的网格,预测Bounding boxes、置信度和类别概率。最后一层时感受野太大了,小目标可能丢失了,需融合之前的特征。4、YOLO-V2-聚类提取先验框。2、YOLO-V2-更大的分辨率。1、YOLO-V1的方法概述。3、YOLO-V2-网络结构。6、YOLO-V1的问题。

2025-03-12 16:54:59 994

原创 图像识别技术与应用第十五课

1、VOC数据集:PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。3、COCO(JSON)格式:(Xmin, Ymin, W, H),其中x,y,w,h均不是归一化后的数值,分别代表左上角坐标和宽、高。1、YOLO(TXT)格式:(x,y,w,h)分别代表中心点坐标和宽、高,x,y,w,h均为归一化结果。2、VOC(XML)格式:(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。二、目标检测的数据集。

2025-03-11 10:42:59 1140

原创 图像识别技术与应用近期总结

3、继承nn.Module基类并应用模型容器构建模型:使用nn.Sequential、nn.ModuleList、nn.ModuleDict等模型容器,不同容器在组织层的方式和特点上有所不同,如nn.Sequential按顺序组合层,nn.ModuleList以列表形式管理层,nn.ModuleDict通过字典管理层。数据不足时可采用K-折交叉验证。2、人工智能概述:阐述人工智能是在机器上实现的智能,是研究相关理论、方法等的技术科学,介绍了其在生活方式上的转变,在日常生活中多个领域都有应用。

2025-03-10 18:53:21 1093

原创 图像识别技术与应用第十四课

其中model.train()是保证BN层用每一批数据的均值和方差,而model.eval()是保证BN用全部训练数据的均值和方差;定义损失函数可以通过自定义方法或使用PyTorch内置的损失函数,如回归使用的losss_fun=nn.MSELoss(),分类使用的mn.BCELoss等损失函数,更多内容可参考本书5.2.4节。这段代码实现了对神经网络模型的训练过程,包括多个训练周期、每个周期内对批次数据的处理、损失计算、反向传播和参数更新,同时记录了训练损失和准确率等指标,以便后续分析和可视化。

2025-03-06 14:18:15 700

原创 图像识别技术与应用第十三课

这段代码定义了一个包含卷积层、池化层和全连接层的神经网络模型,通过 forward 方法实现了数据在网络中的前向传播过程,适用于图像分类等任务,是对经典LeNet - 5架构在PyTorch框架下的一种实现。这段代码定义了一个包含卷积层、池化层、自适应平均池化层和全连接层的神经网络模型,通过 forward 方法实现了数据在网络中的前向传播过程,适用于图像分类等任务。代码实现了多个神经网络模型的联合训练,并在测试集上对这些模型进行评估,同时采用投票法(基于众数)实现模型集成,以提高预测的准确性和稳定性。

2025-03-05 16:34:14 708

原创 图像识别技术与应用第十二课

这段Python代码定义了一个函数 paras_summary ,其目的是像Keras框架那样,以一种结构化的方式展示PyTorch模型各层的参数信息,包括输入形状、输出形状、可训练性以及参数数量等。2、Python代码使用PyTorch框架,统计一个名为 net 的神经网络模型中可训练参数的总数,并将结果打印输出。这段代码定义了一个包含卷积层、池化层、全局平均池化层和全连接层的卷积神经网络,并将其准备好用于后续的训练或测试操作。这段代码的主要功能是评估一个训练好的神经网络模型在测试集上的分类准确率。

2025-03-04 11:04:08 617

原创 图像识别与技术应用第十一课

CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。数据集分为5个训练批次和1个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序选取剩余图像,但一些训练批次可能更多会选取来自一个类别的图像。为方便起见,我们已预先下载好数据并解压,存放在当前目录的data目录下,所以,参数download=False。这10类都是彼此独立的,不会出现重叠,即这是多分类单标签问题。Pytorch实现cifar10多分类。

2025-03-03 17:10:15 476

原创 图像识别技术与应用第十课

对于k分类问题,混淆矩阵为k*k的矩阵,元素Cij表示第i类样本被分类器判定为第j类的数量。主对角线的元素之和为正确分类的样本数,其余元素之和为错误分类的样本数。可以用来表示模型的精度,即模型识别正确的个数/样本的总个数。2、准确率(Precision):又称为查准率,表示在模型识别为正类的样本中,真正为正类的样本所占的比例。3、召回率(Recall):又称为查全率,表示模型正确识别出为正类的样本的数量占总的正类样本数量的比值。将不同的图像,划分到不同的类别标签,实现最小的分类误差。三、图像分类中样本量。

2025-02-28 10:32:03 658

原创 图像识别技术与应用第九课

cd到logs目录所在的同级目录,在命令行输入如下命令,logdir等式右边可以是相对路径或绝对路径。如果要对数据集进行多个操作,可通过Compose将这些操作像管道一样拼接起来,类似于nn.Sequential。(1)导入tensorboard,实例化SummaryWriter类,指明记录日志路径等信息。Scalar:用于可视化单一数值,例如损失值、准确率等随训练过程的变化。Text:用于可视化文本数据,例如模型生成的文本或训练日志。Normalize:标准化,即减均值,除以标准差。

2025-02-27 09:59:40 1131

原创 图像识别技术与应用第八课

drop_last:dataset 中的数据个数可能不是 batch_size的整数倍,drop_last为True会将多出来不足一个batch的数据丢弃。pin_memory:是否将数据保存在锁页内存(pin memory区),其中的数据转到GPU会快一些。Pytorch数据处理工具箱包括utils.data、torchvision、可视化工具。collate_fn:如何将多个样本数据拼接成一个batch,一般使用默认的拼接方式即可。num_workers:使用多进程加载的进程数,0代表不使用多进程。

2025-02-26 17:00:14 661

原创 图像识别技术与应用第七课

1、残差块有两种,一种是正常的模块方式,将输入与输出相加,然后应用激活函数ReLU。2、另一种是为使输入与输出形状一致,需添加通过1×1卷积调整通道和分辨率。3、组合这两个模块得到现代经典RetNet18网络结构。1.使用nn.Sequential模型容器。2.使用nn.ModuleList模型容器。3.使用nn.ModuleDict模型容器。5.循环测试或验证模型。1.加载预处理数据集。

2025-02-25 10:48:56 595

原创 图像识别技术与应用第六课

2、nn.functional中的函数,写法一般为nn.funtional.xxx,如nn.funtional.linear、nn.funtional.conv2d、nn.funtional.cross_entropy等。3、继承nn.Module基类构建模型,又使用相关模型容器(nn.Sequential,nn.ModuleList,nn.ModuleDict等)进行封装。1、nn.Module,写法一般为nn.Xxx,如nn.Linear、nn.Conv2d、nn.CrossEntropyLoss等。

2025-02-24 16:41:19 635

原创 图像识别技术与应用第五课

AlexNet的架构与LeNet相似,但使⽤了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。通过构建具有一定“深度”的模型,可以让模型来自动学习好的特征表示(从底层特征,到中层特征,再到高层特征),从而最终提升预测或识别的准确性。• AlexNet的架构与LeNet相似,但使⽤了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。3、不同次数的重复VGG块,可获得不同的架构,例如VGG-16,VGG-19。• 更大的卷积核,更大的步长,由于图像尺寸增大,输出通道更多。

2025-02-21 10:47:27 625

原创 图像识别技术与应用第四课

填充和步幅可以改变输出的高度和宽度。步幅是每次滑动核窗口时的行/列的步长,可以成倍的减少输出形状。使用一个还不错的相机采集RGB图片(3600万个像素)使用 100 个神经元单隐含层的 MLP ,模型有 36 亿个参数,远超过地球上的狗和猫的数量。步幅是每次滑动核窗口时的行/列的步长,可以成倍的减少输出形状。给定输入大小224*224,在使用5*5卷积核的情况下,需要55层将输出降低到4*4,需要大量的计算。神经网络的前面几层应该只探索输入图像中的局部区域,而不过度在意图像中相隔较远的区域的关系。

2025-02-20 10:25:39 571

原创 图像识别技术与应用第三课

常见的有阶跃函数、S型(sigmoid)激活函数(挤压函数)、tanh激活函数(双曲正切)、ReLU函数(线性修正函数)。感知机由美国学者Frank Rosenblatt在1957年提出,它根据输入x、权重w和偏差b进行输出,输出结果是二分类(0或1) ,这和输出实数的回归以及输出概率用于多分类的Softmax不同。激活函数的作用在于决定如何来激活输入信号的总和。1、学习的过程:神经网络在外界输入样本的刺激下不断改变网络的连接权值乃至拓扑结构,以使网络的输出不断地接近期望的输出。

2025-02-19 17:31:14 526

原创 图像识别技术第二课

到目前为止,不管是监督学习还是无监督学习,我们都会预先获取大量数据,然后启动模型,不再与环境交互。缺点是,解决的问题相当有限。1. 监督学习依据输入特征预测标签,像房价预测这类输出为数值的是回归问题,猫狗识别判断样本类别的属于分类问题,还有多标问题、推荐系统、序列问题等任务类型。梯度是由全部变量的偏导数汇总而成的向量,它指向函数值减小最多的方向,但并不一定指向函数的最小值点。在图像分类、目标检测和分割、人脸合成、机器翻译、图像描述、自然语言文本合成等众多领域,深度学习都取得了令人瞩目的成果。

2025-02-18 11:35:53 997

原创 图像识别技术与应用第一课

人工智能已悄然融入生活各处,从智能家居到便捷支付,它带来的改变真切可感。机器学习作为人工智能的关键,在图像识别等众多领域发挥着核心作用,为技术发展筑牢根基。

2025-02-17 19:01:13 337

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除