- 博客(46)
- 收藏
- 关注
原创 电商双11美妆数据分析项目
平均每单价格低的店铺的总销量、销售额都高于均价更高的。价格便宜是消费者考虑的最多的一个点。销量最高的相宜本草的均价就很低,同时它的销售额也是最高额的。而均价较高的类中,只有雅诗兰黛的销售额相对客观。对于一些中高端商品,可以考虑适当降价来吸引更多消费者。而一些低端商品可以考虑多推广来提高知名度获取销量。所有大类中,护肤品类的销量最高,其次是化妆品类。所有小类中,清洁类、补水类分别是销量的前二名。男士专用的商品中,护肤品销量最高,而化妆品类中主要是唇膏。并且妮维雅占据了男士专用的大部分市场。
2025-05-07 16:44:10
727
原创 数据科学与计算
Seaborn 是一个建立在 Matplotlib 基础之上的 Python 数据可视化库,专注于绘制各种统计图形,以便更轻松地呈现和理解数据。Seaborn 的设计目标是简化统计数据可视化的过程,提供高级接口和美观的默认主题,使得用户能够通过少量的代码实现复杂的图形。
2025-04-30 19:25:54
257
原创 大数据应用开发和项目实战(二)
已知五年级三班的同学中,喜欢篮球的同学占20%,喜欢乒乓球的同学占30%,喜欢羽毛球的同学占20%,喜欢足球的同学占18%,喜欢排球的同学占12%。plt.imshow():用于在绘图区域显示一幅图像。imshow() 创建了一个 4x4 的二维 numpy 数组,并对其进行了三种不同的 imshow 图像展示。3.如果我们将 RGB 颜色的绿色和蓝色坐标的数组元素设置为 0,我们将得到红色的图像。可以使用 imread() 函数从一张图像文件中读取图像数据,并将其显示出来。pie():绘制饼图。
2025-04-29 09:39:48
492
原创 大数据应用开发和项目实战
Matplotlib 是 Python 的绘图库,它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式Matplotlib 可以用来绘制各种静态,动态,交互式的图表。比如说散点图、柱状图等等。
2025-04-28 17:07:39
849
原创 Spark总结
概念:Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎SparkSpark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎Spark Core 中提供了 Spark 最基础与最核心的功能Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。
2025-04-27 17:00:43
1009
原创 Spark-Streaming(四)
给定一个由(键,事件)对构成的 DStream,并传递一个指定如何根据新的事件更新每个键对应状态的函数,它可以构建出一个新的 DStream,其内部数据为(键,状态) 对。➢ saveAsObjectFiles(prefix, [suffix]):以 Java 对象序列化的方式将 Stream 中的数据保存为SequenceFiles . 每一批次的存储文件名基于参数中的为"prefix-TIME_IN_MS[.suffix]".每一批次的存储文件名基于参数中的 prefix 和 suffix。
2025-04-27 15:55:35
887
原创 Spark-Streaming(三)
即使这些函数并没有在 DStream的 API 中暴露出来,通过该函数可以方便的扩展 Spark API。计算过程就是对当前批次的两个流中各自的 RDD 进行 join,与两个 RDD 的 join 效果相同。DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语。无状态转化操作就是把简单的 RDD 转化操作应用到每个批次上,也就是转化 DStream 中的每一个 RDD。
2025-04-25 10:10:43
853
原创 Spark-Streaming(二)
ReceiverAPI:需要一个专门的 Executor 去接收数据,然后发送给其他的 Executor 做计算。存在的问题,接收数据的 Executor 和计算的 Executor 速度会有所不同,特别在接收数据的 Executor速度大于计算的 Executor 速度,会导致计算数据的节点内存溢出。DirectAPI:是由计算的 Executor 来主动消费 Kafka 的数据,速度由自身控制。读取数据时,分区间的数据是无序的,分区中的数据是有序。此命令会从日志文件中的最后的位置开始消费。
2025-04-24 09:30:16
532
原创 kafka的概念安装和spark的安装
Apache Kafka是分布式消息系统(消息中间件)。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。
2025-04-23 20:02:17
1215
原创 Spark-Streaming
Spark Streaming 用于流式数据的处理Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter等,以及和简单的 TCP 套接字等等数据输入后可以用 Spark 的高度抽象原语如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如 HDFS,数据库等和 Spark 基于 RDD 的概念很相似,Spark Streaming 使用离散化流(discretized stream)作为抽象表示,叫作 DStream。
2025-04-22 09:59:00
1402
原创 Spark-SQL(三)
"):在"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"格式下需要传入加载。"):指定保存的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。"):指定加载的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。"):在"csv"、"orc"、"parquet"和"textFile"格式下需要传入保存数据的路径。如果保存不同格式的数据,可以对不同的数据格式进行设定。是加载数据的通用方法。
2025-04-16 18:03:27
1281
原创 Spark-SQL(二)
UDF实例:运行结果UDAF(自定义聚合函数)强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator。
2025-04-15 10:26:06
535
原创 Spark-SQL
Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块Shark 是伯克利实验室 Spark 生态环境的组件之一,是基于 Hive 所开发的工具,它修改了内存管理、物理计划、执行三个模块,并使之能运行在 Spark 引擎上Shark 的出现,使得 SQL-on-Hadoop 的性能比 Hive 有了 10-100 倍的提高Spark 团队重新开发了SparkSQL代码;
2025-04-14 16:53:49
1645
原创 Spark Core(二)
无论是将分区数多的RDD 转换为分区数少的 RDD,还是将分区数少的 RDD 转换为分区数多的 RDD,repartition操作都可以完成,因为无论如何都会经 shuffle 过程。排序后新产生的 RDD 的分区数与原 RDD 的分区数一致。将待处理的数据以分区为单位发送到计算节点进行处理,这里的处理是指可以进行任意的处理,哪怕是过滤数据,在处理时同时可以获取当前分区索引。当 spark 程序中,存在过多的小任务的时候,可以通过 coalesce 方法,收缩合并分区,减少分区的个数,减小任务调度成本。
2025-04-10 11:28:06
999
原创 Spark Core
RDD:弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合1)弹性存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;计算的弹性:计算出错重试机制;分片的弹性:可根据需要重新分片。2)分布式:数据存储在大数据集群不同节点上3)数据集:RDD 封装了计算逻辑,并不保存数据4)数据抽象:RDD 是一个抽象类,需要子类具体实现。
2025-04-09 17:40:13
1293
原创 Window下spark的安装
配置好之后在cmd下运行代码 spark-shell 出现版本号及安装成功。解压缩到无中文无空格的路径中。新建添加spark的绝对路径。配置spark的环境变量。配置用户下的环境变量。
2025-04-08 11:07:03
382
原创 Scala总结(八)
按照指定的规则对集合的元素进行分组简化(归约)折叠实例:运行结果:Reduce方法Reduce 简化(归约) :通过指定的逻辑将集合中的数据进行聚合,从而减少数据,最终获取结果实例:运行结果:Fold 方法Fold 折叠:化简的一种特殊情况实例:运行结果:两个集合合并。
2025-04-08 09:55:59
509
原创 Scala总结(七)
arr1.toBuffer //不可变数组转可变数组arr2.toArray //可变数组转不可变数组实例:运行结果·:定义:val arr = Array.ofDim[Double](3,4)二维数组中有三个一维数组,每个一维数组中有四个元素实例:运行结果:List 默认为不可变集合创建一个 List(数据有顺序,可重复)List 增加数据集合间合并:将一个整体拆成一个一个的个体,称为扁平化空集合 Nil实例:运行结果:实例:运行结果:默认情况下, Scala 使用的是不可变集合, 如果你想使用可变集合
2025-04-07 16:37:41
595
原创 Scala总结(六)
使用 type 关键字可以定义新的数据数据类型名称,本质上就是类型的一个别名实例1.Scala 的集合有三大类:序列 Seq、集Set、映射 Map,所有的集合都扩展自 Iterabl特质2.对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两个包不可变集合:scala.collection.immutable可变集合: scala.collection.mutable。
2025-04-03 11:05:38
1025
原创 Scala总结(五)
java类;如果类是 public 的,则必须和文件名一致。一般,一个.java 有一个 public 类注:Scala中没有public,一个.scala中可以写多个类。
2025-04-02 17:58:16
1012
原创 Scala总结(三)
循环守卫,即循环保护式(也称条件判断式,守卫)。保护式为 true 则进入循环体内部,为false 则跳过,类似于continue基本语法实例:输出1~5中不等于3的值实例:输出1到10以内所有的奇数。
2025-03-31 17:12:40
699
原创 Scala总结(二)
scala和Java的语言不同在于java是强类型语言,Scala是弱类型语言在scala中val代表定义常量;var代表定义变量基本操作符scala的算术操作符与java的算术操作符也没有什么区别,比如+、-、*、/、%等,以及&、|、^、>>、<<等注:scala中没有提供++、--操作符,我们只能使用+和-,比如num = 1,num ++是错误的,必须写做num += 1字符串的插值操作Scala中的三个字符串插值器:s、f、raw在任何字符串前加上s,就可以直接在串中使用变量了。
2025-03-28 10:51:12
1408
原创 Scala总结(一)
程序文件的名称应该与对象名称完全匹配,保存文件时,应该保存它使用的对象名称(记住Scala是区分大小写),并追加".scala"为文件扩展名。Scala是静态编译的,所以速度会快很多,能融合到Hadoop生态圈:Hadoop现在是大数据事实标准,Spark并不是要取代Hadoop,而是要完善Hadoop生态。JVM语言大部分可能会想到Java,但Java做出来的API太丑,或者想实现一个优雅的API太费劲。这可以大幅减少名称冲突的可能性。Scala具备类型系统,通过编译时检查,保证代码的安全性和一致性。
2025-03-27 10:55:08
1067
原创 图像识别技术与应用总结(十八)
2.上采样整合高阶特征(感受野大的。可以根据速度要求来快速完成剪枝。各层统一用卷积得到64个特征图。因为前面也单独有监督训练。训练的时候同样会用到L4。整合低阶特征(X1和X2。概述就是编码解码过程。最终组合得到全部特征。
2025-03-21 09:32:12
304
原创 图像识别技术与应用总结(十六)
虽然作者换了 , 但精髓没变!如果CV界有劳模奖 , 一定非他莫属!整体看还是那个味 , 细还是他细!M 江湖传闻最高的武功 :嫁衣神功。
2025-03-14 10:08:43
1303
原创 图像识别技术与应用总结(十五)
基本所有网络架构都用上了残差连接的方法,V3中也用了resnet的思想,堆叠更多的层来进行特征提取。13*13特征图上:(116x90),(156x198),(373x326)26*26特征图上:(30x61),(62x45),(59x119)52*52特征图上:(10x13),(16x30),(33x23)logistic激活函数来完成,这样就能预测每一个类别是/不是。为了能检测到不同大小的物体,设计了3个scale。YOLO-V2中选了5个,这回更多了,一共有9种。
2025-03-13 10:15:32
530
原创 图像识别技术与应用总结(十四)
很明显,堆叠小的卷积核所需的参数更少一些,并且卷积过程越多,特征提取也会越细致,加入的非线性变换也随着增多,还不会增大权重参数个数,这就是VGG网络的基本出发点,用小的卷积核来完成体特征提取操作。最后一层时感受野太大了,小目标可能丢失了,需融合之前的特征。感受野:概述来说就是特征图上的点能看到原始图像多大区域。
2025-03-12 16:08:44
793
原创 图像识别技术与应用总结(学习感悟)
卷积层是将输入和卷积核进行交叉相关,加上偏移后得到输出核矩阵和偏移是可学习的参数核矩阵的大小是超参数,填充和步幅可以改变输出的高度和宽度,可用于有效地调整数据的维度,多个输入通道是指每个通道都有一个卷积核,结果是所有通道卷积结果的和。图像分类是将不同的图像,划分到不同的类别标签,实现最小的分类误差,图像分类的关键是如何提取出有效的特征来表示图像内容,而不同的特征提取方法会对分类结果产生影响,深度学习模型的出现使得特征提取变得更加自动化和高效,但仍需要根据具体问题选择合适的网络结构和模型。
2025-03-10 17:35:34
462
原创 手写数字识别项目
构建模型(假设为model)后,接下来就是训练模型。PyTorch训练模型主要包括加载数据集、损失计算、定义优化算法、反向传播、参数更新等主要步骤1. 加载预处理数据集加载预处理数据集,可以使用PyTorch的数据处理工具,如torch.utils和torchvision等2. 定义损失函数定义损失函数可以通过自定义方法或使用PyTorch内置的损失函数,如回归使用的loss_fun=nn.MSELoss(),分类使用的nn.BCELoss等损失函数3. 定义优化方法。
2025-03-06 10:10:57
1175
原创 图像识别技术与应用(十一)
数据集分为5个训练批次和1个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序选取剩余图像,但一些训练批次可能更多会选取来自一个类别的图像。为方便起见,我们已预先下载好数据并解压,存放在当前目录的data目录下,所以,参数down1oad=Fa1se。CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。
2025-03-03 20:05:06
615
原创 图像识别技术与应用知识总结(九)
transforms提供了对PIL Image对象和Tensor对象的常用操作1.对PIL Image的常见操作:Scale/Resize:调整尺寸,长宽比保持不变CenterCrop、RandomCrop、RandomSizedCrop:裁剪图像Pad:填充ToTensor:把一个取值范围是[0,255]的PIL.Image转换成TensorRandomHorizontalFlip:图像随机水平翻转RandomVerticalFlip:图像随机垂直翻转。
2025-02-27 09:49:22
668
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅