- 博客(45)
- 收藏
- 关注
原创 电商双11美妆数据分析
平均每单价格低的店铺的总销量、销售额都高于均价更高的。价格便宜是消费者考虑的最多的一个点。销量最高的相宜本草的均价就很低,同时它的销售额也是最高额的。而均价较高的类中,只有雅诗兰黛的销售额相对客观。对于一些中高端商品,可以考虑适当降价来吸引更多消费者。而一些低端商品可以考虑多推广来提高知名度获取销量。所有大类中,护肤品类的销量最高,其次是化妆品类。所有小类中,清洁类、补水类分别是销量的前二名。男士专用的商品中,护肤品销量最高,而化妆品类中主要是唇膏。并且妮维雅占据了男士专用的大部分市场。
2025-05-07 16:56:18
1064
原创 电商双11美妆数据分析
df = pd.read_csv('双十一淘宝美妆数据.csv')df.head() #查看数居前五行df.info() #查看数据特征6 店名 27598 non-null objectdf.shape #查看数据量df.describe() #查看各数字类型特征的一些统计量。
2025-05-06 13:54:38
1136
原创 大数据应用开发和项目实战
Matplotlib 是 Python 的绘图库,它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。Matplotlib 可以用来绘制各种静态,动态,交互式的图表。比如说散点图、柱状图等等。
2025-04-28 18:28:17
1185
原创 学习spark总结
• 核心功能:基于内存计算的分布式计算框架,提供RDD弹性分布式数据集,支持转换(如map、filter)和动作(如collect、save)操作。• 关键特性:高容错性(Lineage机制)、高效内存管理、支持多种部署模式(本地/集群)。
2025-04-27 16:13:32
648
原创 Spark-Streaming核心编程
UpdateStateByKey 原语用于记录历史记录,有时,我们需要在 DStream 中跨批次维护状态(例如流计算中累加 wordcount)。针对这种情况,updateStateByKey()为我们提供了对一个状态变量的访问,用于键值对形式的 DStream。给定一个由(键,事件)对构成的 DStream,并传递一个指定如何根据新的事件更新每个键对应状态的函数,它可以构建出一个新的DStream,其内部数据为(键,状态) 对。
2025-04-27 16:10:11
892
原创 Kafka和flume整合
需求2:Kafka生产者生成的数据利用Flume进行采集,将采集到的数据打印到Flume的控制台上。# 将 Flume Source 设置为 Kafka 消费者,从指定 Kafka 主题拉取数据。# 将 Flume 传输的数据内容直接打印到日志中,# 配置 Sink(写入 Kafka)# 配置 Channel(内存缓冲)# 配置 Channel(内存缓冲)# 配置 Source(监控目录)#指定写入数据到哪一个topic。# 定义 Agent 组件。#指定写入数据到哪一个集群。#指定生成消息的topic。
2025-04-25 10:09:47
1622
原创 spark-streaming
需要一个专门的 Executor 去接收数据,然后发送给其他的 Executor 做计算。存在的问题,接收数据的 Executor 和计算的 Executor 速度会有所不同,特别在接收数据的 Executor速度大于计算的 Executor 速度,会导致计算数据的节点内存溢出。:是由计算的 Executor 来主动消费 Kafka 的数据,速度由自身控制。
2025-04-24 09:08:04
1119
原创 Kafka
1、 点对点模式(一对一,消费者主动拉取数据,消息收到后清除)2、 发布订阅模式(一对多,消费者消费数据之后不会删除,数据可以被多个消费者使用)。有两种消费方式,一种是消费者主动拉取操纵,好处是速度可以自己控制,坏处是要维护一个常轮询,不断询问队列是否有新数据产生;另一种是消息队列推送数据,消费者的消费能力不一样,没法根据不同的消费者提供不同的推送速度。Kafka中存储的消息,被消费后不会被删除,可以被重复消费,消息会保留多长,由kafka自己去配置。默认7天删除。
2025-04-23 19:12:55
1055
原创 spark-streaming
自定义数据源需要继承 Receiver,并实现 onStart、onStop 方法来自定义数据源采集。案例:自定义数据源,实现监控某个端口号,获取该端口号内容。1、自定义数据源receive()}.start()while(!= null){2、使用自定义的数据源采集数据。
2025-04-22 10:47:17
878
原创 spark- SQL
Apache Hive 是 Hadoop 上的 SQL 引擎,Spark SQL 编译时可以包含 Hive 支持,也可以不包含。包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF 、Hive 查询语言等。需要强调的一点是,如果要在 Spark SQL 中包含Hive 的库,并不需要事先安装 Hive。一般来说,最好还是在编译 Spark SQL 时引入 Hive支持,这样就可以使用这些特性了。
2025-04-21 19:43:19
387
原创 spark-sql
/创建SparkSession对象这段代码首先创建了一个 SparkConf 对象,设置了 Spark 应用程序的运行模式为 local[*],表示在本地使用所有可用的 CPU 核心来运行应用程序,并设置应用程序的名称为 SQLDemo。然后通过 SparkSession.builder() 方法,传入配置对象 sparkConf,创建了一个 SparkSession 对象 spark。
2025-04-15 10:51:50
1337
原创 spark- core
在一个(K,V)的 RDD 上调用,K 必须实现 Ordered 接口(特质),返回一个按照 key 进行排序2、join在类型为(K,V)和(K,W)的 RDD 上调用,返回一个相同 key 对应的所有元素连接在一起的(K,(V,W))的 RDD类似于 SQL 语句的左外连接4、cogroup在类型为(K,V)和(K,W)的 RDD 上调用,返回一个(K,(Iterable<V>,Iterable<W>))类型的 RDD。
2025-04-11 10:28:29
1462
原创 spark core
RDD 根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value 类型。Value类型:1、 map将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。将待处理的数据以分区为单位发送到计算节点进行处理,这里的处理是指可以进行任意的处理,哪怕是过滤数据。Map 算子是分区内一个数据一个数据的执行,类似于串行操作。而 mapPartitions 算子是以分区为单位进行批处理操作。Map 算子主要目的将数据源中的数据进行转换和改变。
2025-04-10 09:51:54
1006
原创 spark
Driver Spark 驱动器节点用于执行 Spark 任务中的 main 方法,负责实际代码的执行工作。Driver 在 Spark 作业执行时主要负责:将用户程序转化为作业 在 Executor 之间调度任务 跟踪 Executor 的执行情况 通过 UI 展示查询运行情况Executor Spark Executor 是集群中工作节点(Worker)中的一个 JVM 进程,负责在 Spark 作业中运行具体任务,任务彼此之间相互独立Executor 与 Core。
2025-04-09 16:11:02
1039
原创 Scala-集合计算高级函数
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。⚫ Spark Core 中提供了 Spark 最基础与最核心的功能⚫ Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。⚫ Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。
2025-04-08 09:12:37
788
原创 Scala-数组
默认情况下, Scala 使用的是不可变集合, 如果你想使用可变集合, 需要引用 scala.collection.mutable.Set 包Set 默认是不可变集合,数据无序数据不可重复遍历集合创建可变集合 mutable.Set打印集合集合添加元素向集合中添加元素,返回一个新的 Set删除数据。
2025-04-07 16:14:46
615
原创 Scala-面向对象
注意:Scala 中没有 public,一个.scala 中可以写多个类。[修饰符] class 类名 {类体属性是类的一个组成部分[修饰符] var|val 属性名称 [:类型] = 属性值。
2025-04-02 16:34:30
712
原创 Scala-函数式编程
函数 1:无参,无返回值函数 2:无参,有返回值函数 3:有参,无返回值函数 4:有参,有返回值函数 5:多参,无返回值函数 6:多参,有返回值。
2025-04-01 10:10:22
1358
原创 Scala-switch分支结构
println()i是循环变量 <- 规定toi从1-3循环 前后闭合println()i是从1到3-1进行循环 前闭合后开。
2025-03-31 16:58:12
767
原创 Scala基础语法与简介
Scala特性:面向对象特性分为:类和对象、继承和多态、抽象类和特质、封装函数式编程:高阶函数、不可变性、模式匹配、闭包类型系统:静态类型、类型推断、泛型编程、类型系统扩展:Scala的设计秉承一项事实,即在实践中,某个领域特定的应用程序开发往往需要特定于该领域的语言扩展。Akka框架、Futures和Promises、Scala并发集合集合框架、字符串处理、IO操作与java的互操作性:无缝调用、java标准库、模块化和可扩展性:特质和隐式转换和参数。
2025-03-27 09:48:35
660
原创 U- net系列算法
不同的max pool整合低阶特征(X1和X2 , 轮廓之类的)上采样整合高阶特征(感受野大的 , 全局的)5*64 =320 , 最终组合得到全部特征。M 训练的时候同样会用到L4 ,效果还不错。现在来看 , 很多视觉任务都可以套用这招。M 以前我们都是加法 , 现在全都要。把能拼能凑的特征全用上就是升级版了。M 可以根据速度要求来快速完成剪枝。起初是做医学方向 , 现在也是。这么简单的结构就能把分割任务做好。其实跟densenet思想一致。也是很常见的事 , 多输出。简单但是很实用 ,应用广。
2025-03-21 08:41:50
571
原创 YOLO- V4
虽然作者换了 , 但精髓没变!如果CV界有劳模奖 , 一定非他莫属!整体看还是那个味 , 细还是他细!M 江湖传闻最高的武功 :嫁衣神功。
2025-03-14 10:54:28
636
原创 YOLO-V1和YOLO-V2
如果堆叠3个3*3的卷积层,并且保持滑动窗口步长为1,其感受野就是7*7的了,这跟一个使用7*7卷积核的结果是一样的,那为什么非要堆叠3个小卷积呢?假设输入大小都是h*w*c,并且都使用c个卷积核(得到c个特征图),可以来计算一下其各自所需参数:很明显,堆叠小的卷积核所需的参数更少一些,并且卷积过程越多,特征提取也会越细致,加入的非线性变换也随着增多,还不会增大权重参数个数,这就是VGG网络的基本出发点,用小的卷积核来完成体特征提取操作。最后一层时感受野太大了,小目标可能丢失了,需融合之前的特征。
2025-03-12 16:28:21
990
原创 目标检测项目
识别图片中有哪些物体并且找到物体的存在位置。多任务:位置 + 类别目标种类与数量繁多的问题目标尺度不均的问题遮挡、噪声等外部环境干扰。
2025-03-11 10:22:08
534
原创 关于pytorch项目的心得
在利用PyTorch进行图像分类项目中,为解决某类图像识别率低的问题,我以提升准确率至85%为目标展开工作。数据处理时,通过网络爬虫收集图像,用OpenCV清洗,再借助torchvision完成归一化等预处理操作,增强了数据多样性。模型搭建选用经典的VGG16架构,因其在图像特征提取上表现出色,借助PyTorch简洁的API顺利搭建。训练阶段,采用Adam优化器与交叉熵损失函数,经多轮调参与GPU加速,使模型逐步收敛。评估时以准确率、召回率为指标,直观了解模型性能。
2025-03-10 16:59:27
927
原创 实现神经网络实例和可视化源数据
参考本书5.2.4节。定义损失函数可以通过自定义方法或使用PyTorch内置的损失函数,如回归使用的losss_fun=nn.MSELoss(),分类使用的nn.BCELoss等损失函数3。
2025-03-06 09:08:58
918
原创 机器学习-集成算法
对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。·集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务等。·结合策略①简单平均法②加权平均法·集成学习的结果通过投票法产生?即“少数服从多数”
2025-03-05 16:09:37
285
原创 Pytorch实现cifar10多分类和构建网络
本节以CIFAR-10作为数据集,使用PyTorch利用卷积神经网络进行分类CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。数据集分为5个训练批次和1个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序选取剩余图像,但一些训练批次可能更多会选取来自一个类别的图像。总体来说,五个训练集之和包含来自每个类的正好5000张图像。
2025-03-03 17:23:55
496
原创 Pytorch数据处理工具箱
使用TensorBoard的一般步骤如下。1)导入tensorboard,实例化SummaryWriter类,指明记录日志路径等信息。#实例化SummaryWriter,并指明日志存放路径。在当前目录没有logs目录将自动创建。#调用实例#关闭writer2)调用相应的API接口,接口一般格式为:#即add_xxx(标签,记录的对象,迭代次数)其中,xxx指的是各种可视化方法。·各种可视化方法如下表所示。3)启动tensorboard服务。
2025-02-27 12:17:00
738
原创 Pytorch数据处理工具箱
2.DataLoader:可以批量处理。语法结构如下所示。2.DataLoader:可以批量处理。相关参数介绍如下所示。3.DataLoader:可以批量处理。但是!数据处在不同目录之下时会不方便!但是DataLoader并不是迭代器,可以通过“iter”命令转换成迭代器。
2025-02-26 19:08:12
310
原创 pytorch神经网络工具箱-2
残差块有两种,一种是正常的模块方式,将输入与输出相加,然后应用激活函数ReLU。·另一种是为使输入与输出形状一致,需添加通过1×1卷积调整通道和分辨率。·组合这两个模块得到现代经典RetNet18网络结构。
2025-02-25 11:21:35
598
原创 Pytorch神经网络工具箱-1
nn.functional中的函数,写法一般为nn.funtional.xxx,如nn.funtional.linear、nn.funtional.conv2d、nn.funtional.cross_entropy等。继承nn.Module基类构建模型,又使用相关模型容器(nn.Sequential,nn.ModuleList,nn.ModuleDict等)进行封装。nn.Module,写法一般为nn.Xxx,如nn.Linear、nn.Conv2d、nn.CrossEntropyLoss等。
2025-02-24 16:19:31
471
空空如也
虚拟环境中的pytorch找不到
2025-02-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅