自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 大数据应用开发和项目实战-Matplotlib 2

imread() 方法返回一个 numpy.ndarray 对象,其形状是 (nrows, ncols, nchannels),表示读取的图像的行数、列数和通道数。其格式为matplotlib.pyplot.hist(x, bins=None, color=None, label=None, **kwargs)其格式为matplotlib.pyplot.imsave(fname, arr, **kwargs)其格式为matplotlib.pyplot.imread(fname, format=None)。

2025-04-29 11:17:28 300

原创 大数据应用开发和项目实战-Matplotlib

如果我们不指定 x 轴上的点,则 x 会根据 y 的值来设置为 0, 1, 2, 3..N-1。· 如果我们不指定 x 轴上的点,则 x 会根据 y 的值来设置为 0, 1, 2, 3..N-1。· 绘制一条不规则线,坐标为 (1, 3)、(2, 8)、(6, 1)、(8, 10)。grid():来设置图表中的网格线。plot()中的 marker 参数:定义一些不一样的标记。plot()中的 marker 参数:定义一些不一样的标记。· 绘制坐标 (1, 3) 和 (8, 10) 的两个点。

2025-04-28 17:09:31 918

原创 Spark-Streaming2

给定一个由(键,事件)对构成的 DStream,并传递一个指定如何根据新的事件更新每个键对应状态的函数,它可以构建出一个新的 DStream,其内部数据为(键,状态) 对。与 RDD 中的惰性求值类似,如果一个 DStream 及其派生出的 DStream 都没有被执行输出操作,那么这些 DStream 就都不会被求值。updateStateByKey() 的结果会是一个新的 DStream,其内部的 RDD 序列是由每个时间区间对应的(键,状态)对组成的。1. 定义状态,状态可以是一个任意的数据类型。

2025-04-27 17:24:35 904

原创 Kafka和Spark-Streaming

DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。需要记住的是,尽管这些函数看起来像作用在整个流上一样,但事实上每个 DStream 在内部是由许多 RDD(批次)组成,且无状态转化操作是分别应用到每个 RDD 上的。// 等迭代器中的数据,全部完成之后,再关。

2025-04-25 11:07:50 585

原创 Spark-Streaming2

存在的问题,接收数据的 Executor 和计算的 Executor 速度会有所不同,特别在接收数据的 Executor速度大于计算的 Executor 速度,会导致计算数据的节点内存溢出。DirectAPI:是由计算的 Executor 来主动消费 Kafka 的数据,速度由自身控制。一个topic中的数据,只能被一个groupId所属的consumer消费一次。每一条数据,只存在于当前主题的一个分区中,所有的副本中,都有数据。读取数据时,分区间的数据是无序的,分区中的数据是有序。

2025-04-24 11:10:39 463

原创 Kafka1

另一种是消息队列推送数据,消费者的消费能力不一样,没法根据不同的消费者提供不同的推送速度。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。(1)高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。一些常见的中间件:ActiveMQ,IBMMQ,RabbitMQ,ZMQ 但都不是分布式的。一般用于大数据的流式处理中。

2025-04-23 17:33:59 746

原创 Spark-Streaming

在Spark 1.5 以前版本,用户如果要限制 Receiver 的数据接收速率,可以通过设置静态配制参数“spark.streaming.receiver.maxRate”的值来实现,此举虽然可以通过限制接收速率,来适配当前的处理能力,防止内存溢出,但也会引入其它问题。Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter等,以及和简单的 TCP 套接字等等。容错:Spark Streaming在没有额外代码和配置的情况下,可以恢复丢失的数据。

2025-04-22 11:17:18 769

原创 Spark-SQL4

因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致,因此我们部署好 Spark Thrift Server 后,可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。在开发工具中创建数据库默认是在本地仓库,通过参数修改数据库仓库的地址: config("spark.sql.warehouse.dir","hdfs://node01:9000/user/hive/warehouse")

2025-04-21 17:58:17 1674

原创 Spark-SQL3

"):在"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"格式下需要传入加载数据的路径。"):指定加载的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"。"):指定保存的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"。"):在"csv"、"orc"、"parquet"和"textFile"格式下需要传入保存数据的路径。

2025-04-16 17:32:23 1156

原创 Spark-SQL2

强类型的Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数,如 count(),// 聚合函数缓冲区中值的数据类型(salary,count)// 稳定性:对于相同的输入是否一直返回相同的输出。//创建SparkSession对象。//创建SparkSession对象。//在 spark 中注册聚合函数。//在 spark 中注册聚合函数。// 函数返回值的数据类型。//读取json文件。// 更新缓冲区中的数据。

2025-04-15 11:15:36 777

原创 Spark-SQL

但是,随着 Spark 的发展,对于野心勃勃的 Spark 团队来说,Shark 对于 Hive 的太多依 赖(如采用 Hive 的语法解析器、查询优化器等等),制约了 Spark 的 One Stack Rule Them All 的既定方针,制约了 Spark 各个组件的相互集成,所以提出了 SparkSQL 项目。从 API 易用性的角度上看,DataFrame API 提供的是一套高层的关系操作,比函数式的 RDD API 要 更加友好,门槛更低。如果是数字,默认作为 Int 处理;

2025-04-14 17:49:43 2136

原创 人工智能图像识别Spark Core3

Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。在类型为(K,V)和(K,W)的 RDD 上调用,返回一个(K,(Iterable<V>,Iterable<W>))类型的 RDD。在一个(K,V)的 RDD 上调用,K 必须实现 Ordered 接口(特质),返回一个按照 key 进行排序。在类型为(K,V)和(K,W)的 RDD 上调用,返回一个相同 key 对应的所有元素连接在一起的。

2025-04-11 11:17:06 757 1

原创 人工智能图像识别Spark Core2

从 shuffle 的角度:reduceByKey 和 groupByKey 都存在 shuffle 的操作,但是 reduceByKey可以在 shuffle 前对分区内相同 key 的数据进行预聚合(combine)功能,这样会减少落盘的数据量,而 groupByKey 只是进行分组,不存在数据量减少的问题,reduceByKey 性能比较高。该操作用于排序数据。将待处理的数据以分区为单位发送到计算节点进行处理,这里的处理是指可以进行任意的处理,哪怕是过滤数据,在处理时同时可以获取当前分区索引。

2025-04-10 11:10:58 372

原创 人工智能图像识别Spark Core

Spark 集群的独立部署环境中,不需要依赖其他的资源调度框架,自身就实现了资源调度的功能,所以环境中还有其他两个核心组件:Master 和 Worker,这里的 Master 是一个进程,主要负责资源的调度和分配,并进行集群的监控等职责,类似于 Yarn 环境中的 RM, 而Worker 呢,也是进程,一个 Worker 运行在集群中的一台服务器上,由 Master 分配资源对数据进行并行的处理和计算,类似于 Yarn 环境中 NM。在提交应用中,可以提供参数指定计算节点的个数,以及对应的资源。

2025-04-09 17:45:00 1980

原创 人工智能图像识别spark安装

官网下载地址:https://archive.apache.org/dist/spark,(注意:存放的目录必须在英文文件夹下)例如:D:\Ruanjian\Spark。环境变量Path添加条目%SPARK_HOME%\bin。显示下面的正常运行界面,表示spark环境已搭建完成。找到自己想要下载的版本。例如我下载的3.0.0版本。下载好后将文件解压,解压到自己想要解压的文件目录下。变量值为:你解压文件的bin目录的上一文件地址。输入:spark-shell命令。变量名:SPARK_HOME。

2025-04-08 11:31:55 226

原创 人工智能图像识别大数据之Scala5

(4)扁平化+映射 注:flatMap 相当于进行 map 操作,在进行 flatten 操作集合中的每个元素的子元素映射到某个函数并返回新集合。Reduce 简化(归约) :通过指定的逻辑将集合中的数据进行聚合,从而减少数据,最终获取结果。//(2)转化/映射println(list.map(x => x + 1))// 单词计数:将集合中出现的相同的单词,进行计数,取计数排名前三的结。单词计数:将集合中出现的相同的单词,进行计数,取计数排名前三的结果。// 4) 对计数完成后的结果进行排序(降序)

2025-04-08 11:29:02 682

原创 人工智能图像识别大数据技术之Scala4

/(4) 如 果 key 不 存 在 , 返 回 0 println(map.get("d").getOrElse(0)) println(map.getOrElse("d", 0))//(7)去掉前(后)n 个元素println(list1.drop(3)) println(list1.dropRight(3))//(2)向集合中添加数据buffer.+=(5) buffer.append(6) buffer.insert(1,2)说的简单点,就是将多个无关的数据封装为一个整体,称为元组。

2025-04-07 17:26:49 638

原创 人工智能图像识别大数据技术之Scala3

第二种,一个类(Sub)混入的两个 trait(TraitA,TraitB)中具有相同的具体方法,且两个 trait 继承自相同的 trait(TraitC),及所谓的“钻石问题”,解决这类冲突问题,Scala 采用了特质叠加的策略。案例中的 super,不是表示其父特质对象,而是表示上述叠加顺序中的下一个特质,即,MyClass 中的 super 指代 Color,Color 中的 super 指代Category,Category 中的super指代Ball。这种感觉类似于 Java 中的抽象类。

2025-04-03 11:20:23 834

原创 人工智能图像识别大数据技术之Scala3

Scala 有两种包的管理风格,一种方式和 Java 的包管理风格相同,每个源文件一个包(包名和源文件所在路径不要求必须一致),包名用“.”进行分隔以表示包的层级关系,如com.zpark.scala。封装就是把抽象出的数据和对数据的操作封装在一起,数据被保护在内部,程序的其它部分只有通过被授权的操作(成员方法),才能对数据进行操作。在 Scala 中可以为每个包定义一个同名的包对象,定义在包对象中的成员,作为其对应包下所有 class 和 object 的共享变量,可以被直接访问。

2025-04-02 17:28:55 628

原创 人工智能图像识别大数据技术之Scala2

/(4.4)如果参数只出现一次,则参数省略且后面参数可以用_代替val arr5 = operation(Array(1, 2, 3, 4), _ + 1) println(arr5.mkString(","))//(9)如果不关心名称,只关心逻辑处理,那么函数名(def)可以省略def f9 = (x:String)=>{println("wusong")}//(2)如果函数体只有一行代码,可以省略花括号def f2(s:String):String = s + " jinlian"

2025-04-01 11:25:23 599

原创 人工智能图像识别大数据技术之Scala

大数据技术之Scala1.循环守卫1.1 基本语法for(i <- 1 to 3 if i != 2) { print(i + " ")}println()说明:1.1.1 循环守卫,即循环保护式(也称条件判断式,守卫)。保护式为 true 则进入循环体内部,为false 则跳过,类似于continue。1.1.2 上面的代码等价For (i <- 1 to 3){ if (i ! =2) { print(i + “ “) }}1.2 案例实操需求:输出1到5中,不等于3的值object TestFor

2025-03-31 17:29:05 411

原创 人工智能图像识别Scala基础

for 循环中的 yield 会把当前的元素记下来,保存在集合中,循环结束后将返回该集合。如果被循环的是 Map,返回的就是Map,被循环的是 List,返回的就是 List,以此类推。数值类型:Byte(8位有符号整数)、Short(16位有符号整数)、Int(32位有符号整数)、Long(64位有符号整数)、Float(32位单精度浮点数)、Double(64位双精度浮点数)。Nothing是所有类的子类,是一个类。算术操作符:如+、-、*、/、%等,以及&、|、^、>>、<<等。

2025-03-28 12:39:50 492

原创 人工智能图像识别Scala介绍

Scala即Scalable Language(可伸缩的语言),Scala 语言是由 Martin Odersky 等人在 2003 年开发的,并于 2004 年首次发布。Scala 的编译模型(独立编译,动态类加载)与 Java 和 C# 一样,所以 Scala 代码可以调用 Java 类库(对于.NET实现则可调用.NET类库)。优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。支持单行和多行注释,多行注释可以嵌套但必须正确嵌套,不影响编译。

2025-03-27 11:20:13 664

原创 人工智能图像识别U-net系列算法

5*64 =320 , 最终组合得到全部特征。M 训练的时候同样会用到L4 ,效果还不错。现在来看 ,很多视觉任务都可以套用这招。把能拼能凑的特征全用上就是升级版了。M 以前我们都是加法 ,现在全都要。不同的max pool整合低阶特征。这么简单的结构就能把分割任务做好。其实跟densenet思想一致。起初是做医学方向 ,现在也是。损失由多个位置计算 ,再更新。(X1和X2 , 轮廓之类的)简单但是很实用 ,应用广。也是很常见的事 ,多输出。(感受野大的 , 全局的)特征融合 ,拼接更全面。

2025-03-21 11:21:41 370

原创 人工智能图像识别图像分割项目

Cityscape数据集:5000张精细标注的图像(2975张训练图、500张验证图和1525张测试图)、20000张粗略标注的图像。COCO数据集:共91类,以人类4岁小孩能够辨识为基准,其中82类有超过5000个instance。②实例分割:只预测前景目标的类别属性以及边框,个体ID,每一个像素可以属于多个ID。将不同的像素划分到不同的类别,非常细粒度的分类。VOC数据集:一共2913张图,1464张训练图片,1449张验证图片。③COCO数据集:以场景理解为目标,特别选取比较复杂的日常场景。

2025-03-20 11:30:11 441

原创 人工智能图像识别YOLO系列-V4

并且还是一个捷径 ,红色的没准走个100层(Resnet) ,绿色的几层就到了。亲民政策 , 单GPU就能训练的非常好 , 接下来很多小模块都是这个出发点。M V3中为了更好满足不同输入大小 ,训练的时候要改变输入数据的大小。M 网络细节部分加入了很多改进 ,引入了各种能让特征提取更好的方法。M做人留一面日好相见 ,柔和一点的NMS ,更改分数而且直接剔除。M 注意力机制 ,网络细节设计 ,特征金字塔等 ,你能想到的全有。数据增强:调整亮度、对比度、色调、随机缩放、剪切、翻转、旋转。

2025-03-14 11:22:02 290

原创 人工智能图像识别 YOLO系列-YOLO-V3

13*13特征图上:(116x90),(156x198),(373x326)26*26特征图上:(30x61),(62x45),(59x119)52*52特征图上:(10x13),(16x30),(33x23)终于到V3了,最大的改进就是网络结构,使其更适合小目标检测。特征做的更细致,融入多持续特征图信息来预测不同规格物体。先验框更丰富了,3种scale,每种3个规格,一共9种。YOLO-V2中选了5个,这回更多了,一共有9种。YOLO-V2中选了5个,这回更多了,一共有9种。

2025-03-13 11:22:31 194

原创 人工智能图像识别 YOLO 系列表

很明显,堆叠小的卷积核所需的参数更少一些,并且卷积过程越多,特征提取也会越细致,加入的非线性变换也随着增多,还不会增大权重参数个数,这就是VGG网络的基本出发点,用小的卷积核来完成体特征提取操作。如果堆叠3个3*3的卷积层,并且保持滑动窗口步长为1,其感受野就是7*7的了,这跟一个使用7*7卷积核的结果是一样的,那为什么非要堆叠3个小卷积呢?faster-rcnn系列选择的先验比例都是常规的,但是不一定完全适合数据集。最后一层时感受野太大了,小目标可能丢失了,需融合之前的特征。

2025-03-12 17:45:05 606

原创 人工智能图像识别目标检测项目

(Xmin, Ymin, W, H),其中x,y,w,h均不是归一化后的数值,分别代表左上角坐标和宽、高。经典发展线:R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN。包含20万个图像、80个类别、超过50万个目标标注、平均每个图像的目标数是7.2。(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。(x,y,w,h)分别代表中心点坐标和宽、高,x,y,w,h均为归一化结果。滑动窗口法:需要人工设计尺寸、大量冗余操作、定位不准确。

2025-03-11 11:25:13 941

原创 人工智能图像识别课堂总结

自动读取按类别分目录存储的图像数据(如`train/dog/xxx.jpg`、`train/cat/yyy.jpg`)。Softmax运算:将输出转化为概率分布(非负且和为1),例如 `exp(o_i)/Σexp(o_j)`。结构:输入权重(\(w\))和偏置(\(b\)),通过线性加权和激活函数(如阶跃函数)生成输出。核心:通过训练数据学习参数(权重和偏置),使用损失函数(如均方误差)衡量预测值与真实值的差距。`ImageFolder`要求子目录名对应类别标签(如`类别1/`、`类别2/`)。

2025-03-10 20:20:30 880

原创 人工智能图像识别训练模型

如果模型中有BN(Batch Normalization)层和Dropout,需要在训练时添加model.train(),在测试时添加model.eval()。其中model.train()是保证BN层用每一批数据的均值和方差,而model.eval()是保证BN用全部训练数据的均值和方差;定义损失函数可以通过自定义方法或使用PyTorch内置的损失函数,如回归使用的losss_fun=mn.MSELoss(),分类使用的nn.BCELoss等损失函数,更多内容可参考本书5.2.4节。

2025-03-06 11:16:00 1238

原创 人工智能图像识别机器学习 1

print("epoch:"+ 5tr(ep)+"能成模型的正编率"+str(vote_correct/len(testloader)))print("VGG16模型迭"”+str(ep)+"次的正确率为: "+str(coreect/len(testloader)))print("epoch:"+ str(ep)+"集成模型的正确率"+str(vote_correct/len(testloader)))对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。

2025-03-05 17:35:20 549

原创 人工智能图像识别 Pytorch实现cifar10多分类2

Pytorch实现cifar10多分类2。#使用全局平均池化层。# 权重参数梯度清零。四、像keras一样显示各层参数。三、采用全局平均池化。

2025-03-04 13:02:00 892

原创 人工智能图像识别pytorch实现cifar10 多分类

数据集分为5个训练批次和1个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序选取剩余图像,但一些训练批次可能更多会选取来自一个类别的图像。为方便起见,我们已预先下载好数据并解压,存放在当前目录的data目录下,所以,参数dowmload=False。CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。图6-27显示了数据集中涉及的10个类,以及来自每个类的10个随机图像。# 随机获取部分训练数据。

2025-03-03 17:48:21 677

原创 人工智能图像识别图像分类项目

微调预训练模型:在源领域上训练一个基础模型,再用目标领域的小样本数据对模型的部分层进行微调,使模型适应目标领域,像在大规模图像数据上预训练的卷积神经网络,在小样本的特定图像分类任务上微调。集成学习:训练多个不同的模型,例如使用不同的初始化参数训练多个卷积神经网络模型,然后将这些模型的预测结果进行融合,如采用投票法或平均法等。特征工程:手动提取图像的特征,像尺度不变特征变换(SIFT)、方向梯度直方图(HOG)等特征,这些特征能突出图像关键信息,使模型基于更有效的信息进行分类,一定程度弥补样本量少的缺陷。

2025-02-28 11:17:33 759

原创 人工智能图像识别torchvision

cd到logs目录所在的同级目录,在命令行输入如下命令,logdir等式右边可以是相对路径或绝对路径。1)导入tensorboard,实例化SummaryWriter类,指明记录日志路径等信息。transforms提供了对PIL Image对象和Tensor对象的常用操作。transforms提供了对PIL Image对象和Tensor对象的常用操作。transforms提供了对PIL Image对象和Tensor对象的常用操作。使用TensorBoard的一般步骤如下。

2025-02-27 10:31:49 436

原创 人工智能Pytorch数据处理工具箱

但是DataLoader并不是迭代器, 可以通过“iter”命令转换成迭代器。2.DataLoader:可以批量处理 语法结构如下所示。·_getitem_一次只能获取一个样本。数据处在不同目录之下时会不方便!DataLoader:可以批量处理。可以批量处理 语法结构如下所示。二、utils.data。一、数据处理工具箱概述。

2025-02-26 20:27:57 174

原创 人工智能Pytorch 神经网络工具箱2

该方法构建时不能给每个层指定名称,如果需要给每个层指定名称, 可使用add_module方法或OrderedDict方法。残差块有两种,一种是正常的模块方式,将输入与输出相加,然后应用激活函数ReLU。三、继承nn.Module基类并应用模型容器构建模型。二、使用nn.Sequential按层顺序构建模型。2. 使用nn.ModuleList模型容器。1.使用nn.Sequential模型容器。3.使用nn.ModuleDict模型容器。一、继承nn.Module基类构建模型。

2025-02-25 19:33:37 319

原创 Pytorch神经网络工具箱

它能够很好的与nn.Sequential结合使用,而nn.functional.xxx无法与nn.Sequential结合使用。nn.functional中的函数,写法一般为nn.funtional.xxx如nn.funtionallinear、nn.funtional.conv2d、nn.funtional.cross_entropy等。nn.Module,写法一般为nn.Xxx,如nn.Linear、nn.Conv2d、nn.CrossEntropyLoss等。继承nn.Module基类构建模型。

2025-02-24 17:25:16 296

原创 人工智能图像识别卷神经网络LeNet结构

ReLU 激活函数的作用是为网络引入非线性,其公式为 f(x) = max(0, x) ,它能够增强网络的表达能力,让网络学习到更复杂的特征。将池化层 2 的输出 4x4 的特征图展开为一维向量,其长度为 4 x 4 x 16 = 256 (16 是卷积层 2 的输出通道数)。经过 ReLU 激活函数处理后,输出新的特征图,继续提取图像中的复杂特征。通过构建具有一定“深度”的模型,可以让模型来自动学习好的特征表示(从底层特征,到中层特征,再到高层特征),从而最终提升预测或识别的准确性。

2025-02-21 10:58:58 804

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除