小名叫咸菜-优快云博客

原创电商双十一美妆数据分析(代码)

数据读取df = pd.read_csv('双十一_淘宝美妆数据.csv')# 数据清洗# 处理重复值# 处理缺失值# 特征工程# 对title进行分词# 划分主类别和子类别"乳液": ("护肤品", "乳液类"),"柔肤水": ("护肤品", "化妆水"),"精华素": ("护肤品", "精华类"),"面霜": ("护肤品", "面霜类"),"洁面乳": ("护肤品", "清洁类"),"唇膏": ("化妆品", "口红类"),"蜜粉": ("化妆品", "底妆类"),

2025-05-07 21:37:04 1256

原创电商双十一美妆数据分析

缺失值处理：识别 sale_count 和 comment_count 列的缺失值， data.loc[data['sale_count'].isnull()] 查看缺失行，然后用 data = data.fillna(0) 以0填充缺失值。

2025-05-06 21:03:21 590

原创 matplotlib

标记字符 '.' 点标记，',' 像素标记(极小点)，'o' 实心圈标记，'v' 倒三角标记，'^' 上三角标记，'>' 右三角标记，'<' 左三角标记等等。颜色字符 'b' 蓝色，'m' 洋红色，'g' 绿色，'y' 黄色，'r' 红色，'k' 黑色，'w' 白色，'c' 青绿色等等。which 可选，可选值有 'major'、'minor' 和 'both'，默认为 'major'，表示应用更改的网格线。线型参数 '‐' 实线，'‐‐' 破折线，'‐.' 点划线，':' 虚线。

2025-04-28 20:30:24 1281

原创 spark总结

核心概念：RDD是基本数据处理模型，具备弹性、分布式等特性，拥有分区列表、计算函数等核心属性，其执行涉及资源申请、任务划分与调度。此外，还介绍了累加器和广播变量，用于分布式环境下的数据聚合与对象分发。编程操作：包括创建RDD的多种方式，如从集合、外部存储等；RDD转换算子分为Value、双Value和Key - Value类型，各有不同的操作函数；行动算子用于触发实际计算，返回结果或进行存储。同时，讲解了RDD的序列化、依赖关系、持久化和分区器等内容。

2025-04-27 17:21:48 367

原创 Spark-Streaming核心编程(3)

UpdateStateByKey是一种状态转化操作，可在DStream中跨批次维护状态，常用于记录历史记录，比如流计算里的累加wordcount。它作用于键值对形式的DStream，通过传递更新状态的函数，构建出新的包含（键，状态）对的DStream。另外，使用该操作需配置检查点目录，以便保存状态。

2025-04-27 17:05:32 762

原创 flume整合Kafka和spark-streaming核心编程

需求1：利用flume监控某目录中新生成的文件，将监控到的变更数据发送给kafka，kafka将收到的数据打印到控制台：1.查看topic2.编辑flume-Kafka.conf，并启动flume3.启动Kafka消费者4.新增测试数据5.查看Kafka消费者控制台需求2：Kafka生产者生成的数据利用Flume进行采集，将采集到的数据打印到Flume的控制台上。1编辑kafka-flume.conf，并启动flume2.启动Kafka生产者，并在生产者种写入数据。

2025-04-25 10:56:34 865

原创 Spark-Streaming核心编程(2)

需求：通过 SparkStreaming 从 Kafka 读取数据，并将读取过来的数据做简单计算，最终打印到控制台。

2025-04-24 11:22:54 870

原创 Kafka简介

Kafka是分布式发布 - 订阅消息系统，最初由LinkedIn开发，后成为Apache项目一部分，可类比为放鸡蛋的篮子，生产者产蛋放入，消费者从中取蛋。

2025-04-23 19:32:21 963

原创 Spark-Streaming简介和核心编程

自定义数据源需继承Receiver并实现onStart、onStop方法。案例中自定义数据源监控指定端口获取内容，在使用时通过ssc.receiverStream引入，进而进行数据处理。

2025-04-22 13:04:30 661

原创 spark-SQL实验

将json格式数据利用get_json_object函数转换格式之后在进行后续分析处理。有效数据：指uid、phone、addr三个字段均无空值的数据。3:运行一遍之后，再次运行会报错，因为数据库已经存在创建的表。1:数据库，已有数据库就选择合适的，没有数据库就需提前创建。实验内容:统计有效数据条数及用户数量最多的前二十个地址。2:文件路径问题，不要复制，容易出错。

2025-04-22 12:51:49 340

原创 spark-SQL数据加载和保存

通过 spark.read.load 和 df.write.save 实现数据加载与保存。可利用 format 指定数据格式，如 csv 、 jdbc 等；option 用于设置特定参数，像 jdbc 格式下的数据库连接信息；load 和 save 则分别指定数据路径。保存时还能使用 SaveMode 包含 ErrorIfExists 、 Append 、 Overwrite 、 Ignore 等模式。

2025-04-16 19:57:08 936

原创 Spark-SQL核心编程语言

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数，如 count()，除此之外，用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数，从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator案例:计算平均工资实现方式一:RDD实现方式二:强类型UDAF实现方式三:弱类型UDAF。

2025-04-15 13:25:41 641

原创 spark简介和核心编程

1. Spark-SQL概述：Spark SQL是Spark处理结构化数据的模块，前身是Shark。Shark基于Hive开发，提升了SQL-on-Hadoop的性能，但对Hive的过度依赖制约了Spark发展。SparkSQL抛弃Shark代码，汲取其优点后重新开发，在数据兼容、性能优化、组件扩展上优势明显。Shark停止开发后，衍生出SparkSQL和Hive on Spark。SparkSQL简化RDD开发，提供DataFrame和DataSet两个编程抽象。

2025-04-14 19:24:01 1314

原创 RDD行动算子和累加器

是能触发真正计算数据的算子reduce:聚集RDD元素collect:返回数据集所有元素foreach:分布式遍历元素count:返回元素个数:first:返回首个元素take:返回前n个元素takeOrdered:返回排序后的前n个元素aggregate:分区和分区间数据聚合fold:简化版aggregatecountByKey:统计每种key的个数save:保存数据到不同格式文件。

2025-04-11 13:47:56 408

原创 RDD转换算子

2025-04-10 15:09:32 846

原创 spark架构和RDD相关概念

RDD是Spark最基本的数据处理模型，是一个抽象类，代表弹性、不可变、可分区且元素可并行计算的集合。具有存储、容错、计算、分片弹性，数据分布式存储，封装计算逻辑但不保存数据。

2025-04-09 19:30:06 1079

原创 spark简介和安装

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

2025-04-08 13:20:48 580

原创 Scala集合(3)

Reduce 简化（归约）：通过指定的逻辑将集合中的数据进行聚合，从而减少数据，最终获取结果。单词计数:将集合中出现的相同的单词，进行计数，取计数排名前三的结果。fold折叠:化简的一种特殊情况。案例实操两个集合合并。

2025-04-08 10:08:24 610

原创 Scala集合(2)

元组也是可以理解为一个容器，可以存放各种相同或不同类型的数据。说的简单点，就是将多个无关的数据封装为一个整体，称为元组。元组中最大只能有 22 个元素。arr1.toBuffer //不可变数组转可变数组arr2.toArray //可变数组转不可变数组。（3） Map 中的键值对其实就是元组,只不过元组的元素个数为 2，称之为对偶。（1）声明元组的方式：(元素 1，元素 2，元素 3)获取集合的尾（不是头的就是尾）集合初始数据（不包含最后一个）去掉前（后）n 个元素。取前（后）n 个元素。

2025-04-07 20:01:42 691

原创面向对象(2)

使用 type 关键字可以定义新的数据数据类型名称，本质上就是类型的一个别名。

2025-04-03 12:22:20 836

原创 Scala面向对象

封装就是把抽象出的数据和对数据的操作封装在一起，数据被保护在内部，程序的其它部分只有通过被授权的操作（成员方法），才能对数据进行操作。Scala有两种包的管理风格，一种方式和JAVA的曝光率风格相同，每一个原文件一个包，用.进行分割以表示包的层级关系。Scala 类的主构造器函数的形参包括三种类型：未用任何修饰、var 修饰、val 修饰。命名规则:只能包含数字、字母、下划线、小圆点，但不能用数字开头，也不要使用关键字。def 方法名(参数列表) [：返回值类型] = {属性是类的一个组成部分。

2025-04-02 19:58:18 984

原创函数式编程

函数定义函数 1：无参，无返回值函数 2：无参，有返回值函数 3：有参，无返回值函数 4：有参，有返回值函数 5：多参，无返回值函数 6：多参，有返回值案例实操。

2025-04-01 18:56:50 388

原创 Scala基础语法(3)

Scala 内置控制结构特地去掉了 break 和 continue，是为了更好的适应函数式编程，推荐使用函数式的风格解决break 和continue 的功能，而不是一个关键字。for 推导式有一个不成文的约定：当 for 推导式仅包含单一表达式时使用圆括号，当包含多个表达式时，一般每行一个表达式，并用花括号代替圆括号。循环守卫，即循环保护式（也称条件判断式，守卫）。保护式为 true 则进入循环体内部，为false 则跳过，类似于continue。代码案例:输出1-5中不等于3的值。

2025-03-31 19:32:01 363

原创 Scala基础语法(2)

var:定义变量val:定义常量。

2025-03-28 13:31:29 310

原创 scala简介和基础语法

Scala 是一门多范式（multi-paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在 Java 虚拟机上，并兼容现有的 Java 程序。Scala 源代码被编译成 Java 字节码，所以它可以运行于 JVM 之上，并可以调用现有的 Java 类库。

2025-03-27 11:35:47 525

原创 U-net系列算法

整体结构:就是编码解码过程简单但是很实用，应用广泛，起初是做医学方向，现在也是主要网络结构:还引入了特征拼接操作，以前我们都是加法，现在全都要这么简单的结构就能把分割任务做好。

2025-03-21 10:51:06 332

原创图像分割项目

图像分割：预测目标的轮廓。将不同的像素划分到不同的类别，非常细粒度的分类。应用场景:人像抠图，医学组织提取，遥感图像分析，自动驾驶，材料图像等。图像分割的前景和背景:物体Things：可数前景目标(行人等)、事物Stuff：不可数背景(天空，草地，路面)

2025-03-20 10:40:55 432

原创 YOLO系列(3)

故事得先从FPN说起自顶向下的模式，将高层特征传下来好像只有一条路子，能不能来个双向的呢？引入了自底向上的路径，使得底层信息更容易传到顶部并且还是一个捷径，红色的没准走个100层(Resnet) ，绿色的几层就到了。V4中用的是SAM ，也就是空间的注意力机制不光NLP,语音识别领域在搞attention ， CV中也一样。之前的dropout(随机删除神经元，预防过拟合)是随机选择点(b) ，现在吃掉一个区域。注意力机制，网络细节设计，特征金字塔等，你能想到的全有。

2025-03-14 11:15:32 947

原创 YOLO系列(2)

13*13特征图上：(116x90)，(156x198)，(373x326)26*26特征图上：(30x61)，(62x45)，(59x119)左图：对不同的特征图分别利用；右图：不同的特征图融合后进行预测；52*52特征图上：(10x13)，(16x30)，(33x23)为了能检测到不同大小的物体，设计了3个scale。V3中也用了resnet的思想，堆叠更多的层来进行特征提取。从今天的角度来看，基本所有网络架构都用上了残差连接的方法。YOLO-V2中选了5个，这回更多了，一共有9种。

2025-03-13 10:35:50 292

原创 YOLO系列

很明显，堆叠小的卷积核所需的参数更少一些，并且卷积过程越多，特征提取也会越细致，加入的非线性变换也随着增多，还不会增大权重参数个数，这就是VGG网络的基本出发点，用小的卷积核来完成体特征提取操作。faster-rcnn系列选择的先验比例都是常规的，但是不一定完全适合数据集。通过引入anchor boxes，使得预测的box数量更多（13*13*n）最后一层时感受野太大了，小目标可能丢失了，需融合之前的特征。这样会导致收敛问题，模型不稳定，尤其是刚开始进行训练的时候。YOLO-V2-更大的分辨率。

2025-03-12 16:46:05 719

原创目标检测项目

anchor-base是自顶向下的类似于传统方法，滑动窗口法穷举出许多，然后再根据置信度之类的进行筛选。anchor-free是自底向上的想办法自动生成，不穷举free掉了anchor的预设过程。经典发展线：R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN。根据置信度降序排列候选框列表选取置信度最高的框A添到输出列表，将其从候选框列表删除。候选框列表中的所有框依次与A计算IoU，删除大于阈值的候选框。设定目标框的置信度阈值，常用的阈值是0.5左右。

2025-03-11 10:46:22 924

原创 Pytorch实现cifar10多分类总结

CIFAR-10是一个常用的图像分类数据集，每张图片都是 3×32×32，3通道彩色图片，分辨率为 32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积神经网络(CNN)来实现高效的分类。# 判断是否有可用的CUDA设备，如果有使用GPU版本，没有使用CPU版本。

2025-03-10 17:13:45 852

原创手写数字识别项目

print("学习率:{:.6f}".format(optimizer.param_groups[0]["lr"]))#保存loss的数据与epoch数值。#net.eval()将模型改为预测模式。#导入pytorch内置的mnist数据。#下载数据，并对数据进行预处理。#动态修改参数学习率。#在测试集上测试结果。#定义损失函数和优化器。

2025-03-06 11:19:24 974

原创机器学习和cifar10多分类集成方法

对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务等。集成学习的结果通过投票法产生?即“少数服从多数”

2025-03-05 17:49:07 826

原创 Python实现cifar10多分类(2)

total=0return xLR=0.001params = 0else:else:hooks =[]model(x)h.remove()

2025-03-04 13:43:59 471

原创 Python实现cifar10多分类

显示图像plt.show()#随机获取部分训练数据#使用for循环来迭代数据。

2025-03-03 19:15:28 508

原创图像识别技术与应用

可以用来表示模型的精度，即模型识别正确的个数/样本的总个数。一般情况下，模型的精度越高，说明模型的效果越好。多类别分类模型各个类别之间的分类情况对于k分类问题，混淆矩阵为k*k的矩阵，元素Cij表示第i类样本被分类器判定为第j类的数量。主对角线的元素之和为正确分类的样本数，其余元素之和为错误分类的样本数。准确率(Precision)：又称为查准率，表示在模型识别为正类的样本中，真正为正类的样本所占的比例。召回率(Recall)：又称为查全率，表示模型正确识别出为正类的样本的数量占总的正类样本数量的比值。

2025-02-28 10:21:54 422

空空如也

空空如也