- 博客(31)
- 收藏
- 关注
原创 spark core
RDD 根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value 类型。Value类型:1、 map将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。将待处理的数据以分区为单位发送到计算节点进行处理,这里的处理是指可以进行任意的处理,哪怕是过滤数据。Map 算子是分区内一个数据一个数据的执行,类似于串行操作。而 mapPartitions 算子是以分区为单位进行批处理操作。Map 算子主要目的将数据源中的数据进行转换和改变。
2025-04-10 09:51:54
635
原创 spark
Driver Spark 驱动器节点用于执行 Spark 任务中的 main 方法,负责实际代码的执行工作。Driver 在 Spark 作业执行时主要负责:将用户程序转化为作业 在 Executor 之间调度任务 跟踪 Executor 的执行情况 通过 UI 展示查询运行情况Executor Spark Executor 是集群中工作节点(Worker)中的一个 JVM 进程,负责在 Spark 作业中运行具体任务,任务彼此之间相互独立Executor 与 Core。
2025-04-09 16:11:02
735
原创 Scala-集合计算高级函数
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。⚫ Spark Core 中提供了 Spark 最基础与最核心的功能⚫ Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。⚫ Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。
2025-04-08 09:12:37
514
原创 Scala-数组
默认情况下, Scala 使用的是不可变集合, 如果你想使用可变集合, 需要引用 scala.collection.mutable.Set 包Set 默认是不可变集合,数据无序数据不可重复遍历集合创建可变集合 mutable.Set打印集合集合添加元素向集合中添加元素,返回一个新的 Set删除数据。
2025-04-07 16:14:46
569
原创 Scala-面向对象
注意:Scala 中没有 public,一个.scala 中可以写多个类。[修饰符] class 类名 {类体属性是类的一个组成部分[修饰符] var|val 属性名称 [:类型] = 属性值。
2025-04-02 16:34:30
672
原创 Scala-函数式编程
函数 1:无参,无返回值函数 2:无参,有返回值函数 3:有参,无返回值函数 4:有参,有返回值函数 5:多参,无返回值函数 6:多参,有返回值。
2025-04-01 10:10:22
1202
原创 Scala-switch分支结构
println()i是循环变量 <- 规定toi从1-3循环 前后闭合println()i是从1到3-1进行循环 前闭合后开。
2025-03-31 16:58:12
645
原创 Scala基础语法与简介
Scala特性:面向对象特性分为:类和对象、继承和多态、抽象类和特质、封装函数式编程:高阶函数、不可变性、模式匹配、闭包类型系统:静态类型、类型推断、泛型编程、类型系统扩展:Scala的设计秉承一项事实,即在实践中,某个领域特定的应用程序开发往往需要特定于该领域的语言扩展。Akka框架、Futures和Promises、Scala并发集合集合框架、字符串处理、IO操作与java的互操作性:无缝调用、java标准库、模块化和可扩展性:特质和隐式转换和参数。
2025-03-27 09:48:35
558
原创 U- net系列算法
不同的max pool整合低阶特征(X1和X2 , 轮廓之类的)上采样整合高阶特征(感受野大的 , 全局的)5*64 =320 , 最终组合得到全部特征。M 训练的时候同样会用到L4 ,效果还不错。现在来看 , 很多视觉任务都可以套用这招。M 以前我们都是加法 , 现在全都要。把能拼能凑的特征全用上就是升级版了。M 可以根据速度要求来快速完成剪枝。起初是做医学方向 , 现在也是。这么简单的结构就能把分割任务做好。其实跟densenet思想一致。也是很常见的事 , 多输出。简单但是很实用 ,应用广。
2025-03-21 08:41:50
462
原创 YOLO- V4
虽然作者换了 , 但精髓没变!如果CV界有劳模奖 , 一定非他莫属!整体看还是那个味 , 细还是他细!M 江湖传闻最高的武功 :嫁衣神功。
2025-03-14 10:54:28
591
原创 YOLO-V1和YOLO-V2
如果堆叠3个3*3的卷积层,并且保持滑动窗口步长为1,其感受野就是7*7的了,这跟一个使用7*7卷积核的结果是一样的,那为什么非要堆叠3个小卷积呢?假设输入大小都是h*w*c,并且都使用c个卷积核(得到c个特征图),可以来计算一下其各自所需参数:很明显,堆叠小的卷积核所需的参数更少一些,并且卷积过程越多,特征提取也会越细致,加入的非线性变换也随着增多,还不会增大权重参数个数,这就是VGG网络的基本出发点,用小的卷积核来完成体特征提取操作。最后一层时感受野太大了,小目标可能丢失了,需融合之前的特征。
2025-03-12 16:28:21
935
原创 目标检测项目
识别图片中有哪些物体并且找到物体的存在位置。多任务:位置 + 类别目标种类与数量繁多的问题目标尺度不均的问题遮挡、噪声等外部环境干扰。
2025-03-11 10:22:08
505
原创 关于pytorch项目的心得
在利用PyTorch进行图像分类项目中,为解决某类图像识别率低的问题,我以提升准确率至85%为目标展开工作。数据处理时,通过网络爬虫收集图像,用OpenCV清洗,再借助torchvision完成归一化等预处理操作,增强了数据多样性。模型搭建选用经典的VGG16架构,因其在图像特征提取上表现出色,借助PyTorch简洁的API顺利搭建。训练阶段,采用Adam优化器与交叉熵损失函数,经多轮调参与GPU加速,使模型逐步收敛。评估时以准确率、召回率为指标,直观了解模型性能。
2025-03-10 16:59:27
824
原创 实现神经网络实例和可视化源数据
参考本书5.2.4节。定义损失函数可以通过自定义方法或使用PyTorch内置的损失函数,如回归使用的losss_fun=nn.MSELoss(),分类使用的nn.BCELoss等损失函数3。
2025-03-06 09:08:58
833
原创 机器学习-集成算法
对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。·集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务等。·结合策略①简单平均法②加权平均法·集成学习的结果通过投票法产生?即“少数服从多数”
2025-03-05 16:09:37
250
原创 Pytorch实现cifar10多分类和构建网络
本节以CIFAR-10作为数据集,使用PyTorch利用卷积神经网络进行分类CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。数据集分为5个训练批次和1个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序选取剩余图像,但一些训练批次可能更多会选取来自一个类别的图像。总体来说,五个训练集之和包含来自每个类的正好5000张图像。
2025-03-03 17:23:55
465
原创 Pytorch数据处理工具箱
使用TensorBoard的一般步骤如下。1)导入tensorboard,实例化SummaryWriter类,指明记录日志路径等信息。#实例化SummaryWriter,并指明日志存放路径。在当前目录没有logs目录将自动创建。#调用实例#关闭writer2)调用相应的API接口,接口一般格式为:#即add_xxx(标签,记录的对象,迭代次数)其中,xxx指的是各种可视化方法。·各种可视化方法如下表所示。3)启动tensorboard服务。
2025-02-27 12:17:00
707
原创 Pytorch数据处理工具箱
2.DataLoader:可以批量处理。语法结构如下所示。2.DataLoader:可以批量处理。相关参数介绍如下所示。3.DataLoader:可以批量处理。但是!数据处在不同目录之下时会不方便!但是DataLoader并不是迭代器,可以通过“iter”命令转换成迭代器。
2025-02-26 19:08:12
272
原创 pytorch神经网络工具箱-2
残差块有两种,一种是正常的模块方式,将输入与输出相加,然后应用激活函数ReLU。·另一种是为使输入与输出形状一致,需添加通过1×1卷积调整通道和分辨率。·组合这两个模块得到现代经典RetNet18网络结构。
2025-02-25 11:21:35
562
原创 Pytorch神经网络工具箱-1
nn.functional中的函数,写法一般为nn.funtional.xxx,如nn.funtional.linear、nn.funtional.conv2d、nn.funtional.cross_entropy等。继承nn.Module基类构建模型,又使用相关模型容器(nn.Sequential,nn.ModuleList,nn.ModuleDict等)进行封装。nn.Module,写法一般为nn.Xxx,如nn.Linear、nn.Conv2d、nn.CrossEntropyLoss等。
2025-02-24 16:19:31
436
原创 人工智能-卷积神经网络2
• AlexNet的架构与LeNet相似,但使⽤了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。• 今天,AlexNet已经被更有效的架构所超越,但它是从浅层⽹络到深层网络的关键一步。• 新加入了Dropout、ReLU、最大池化层和数据增强。
2025-02-21 09:45:39
1295
原创 人工智能-卷积神经网络
使用 100 个神经元单隐含层的 MLP ,模型有 36 亿个参数。卷积层对输入和卷积核进行互相关运算,并在添加标量偏置之后产生输出。步幅是每次滑动核窗口时的行/列的步长,可以成倍的减少输出形状。卷积层将输入和卷积核进行交叉相关,加上偏移后得到输出。填充在输入周围添加额外的行/列,增加输出的高度和宽度。每个通道都有一个卷积核,结果是所有通道卷积结果的和。填充:在输入周围添加额外的行 / 列。填充和步幅可以改变输出的高度和宽度。更大的卷积核可以更快地减小输出。远超过地球上的狗和猫的数量。
2025-02-20 09:49:18
528
原创 人工智能-多层感知机
多层感知机使用隐藏层和激活函数来得到非线性模型常用激活函数是Sigmoid,Tanh,RELU使用Softmax来处理多分类超参数为隐藏层数和各个隐藏层大小。
2025-02-19 16:53:08
757
原创 人工智能-图像识别技术2
看中一个房,参观了解估计一个价格,出价假设1:影响房价的关键因素:卧室数目,卫浴数目和房子大小,分别用XbedsXbathsXarea表示假设2:销售价格是关键因素的加权总和:w称为权重,决定了每个特征对我们预测值的影响b称为偏置给予n维输入,x=[x1,x2...,xn]T线性方法有n个权重和偏差:w=[w1,w2,...,wn]T,b输出是输入的加权总和:点积形式:y=wTx+b y=w1x1+w2x2+...+wnxn+b矩阵-向量乘法表示:y=Xw+b。
2025-02-18 11:15:30
671
原创 人工智能-图片识别技术与应用 1
设计一个灵活的程序算法,其输出由许多参数决定,然后使用数据集来确定当下的“最佳参数集”,这些参数通过某种性能度量方式来达到完成任务的最佳性能。日常生活中的人工智能 比如指纹、人脸识别解锁,人脸支付,商品推荐,智能物流,仓储机器人,短视频推荐,搜索排列,新闻推荐,智能助手,智能语音,图像编辑,智能美图、智能购物、智慧医疗、智慧试衣等。在机器学习中,我们需要定义模型的优劣程度的度量,这个度量在大多数情况是“可优化”的,这被称之为目标函数。4. 重复第(2)步和第(3)步,直到模型在任务中的表现令⼈满意。
2025-02-17 17:14:22
546
2
空空如也
虚拟环境中的pytorch找不到
2025-02-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人