自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

ynisd__的博客

原创 PySpark代统计分析

from pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql.window import Window# 创建SparkSessionspark = SparkSession.builder.appName("RetailAnalysis").getOrCreate()# 假设prod和sales表已注册为临时视图（实际需从数据源加载）# spark.read.csv(...).c

2025-06-09 17:47:33 350

原创 PySpark处理化妆品销售数据的脚本

withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')).withColumn("od_quantity", regexp_replace('od_quantity','个','')).withColumn("od_price", regexp_replace('od_price','元','')).dropDuplicates(['prod_id']) # 按商品ID去重。

2025-06-09 17:44:41 749

原创 Spark Streaming 实时数据计算

spark@ubuntu:~$ nc -lk 9999 # 启动监听 9999 端口的服务端，-l 监听，-k 保持监听 (即使客户端断开)当窗口滑动时，旧批次数据过期移出窗口，新批次数据加入窗口，然后重新计算聚合结果。Spark Streaming 接收器 (Receiver) 或直接连接器 (Direct API) 获取数据。DStream 是 Spark Streaming 提供的抽象，代表一个持续不断的数据流。(Direct API) 是更推荐的方式，效率更高，能更好地控制偏移量，无需接收器。

2025-06-09 15:06:45 1037

原创 Spark教育数据分析报告：学生考试成绩深度解析

SELECT count(distinct name) FROM my_test WHERE gender='男'WHERE id='12' AND gender='女'：12班女生平均分(88.3)显著高于男生(80.2)13班数学表现突出(最高分100分)-- 12班chinese最低分。-- 12班总分>150分的女生。12班英语平均分最高(79.2)-- 小于20岁的学生人数。-- english平均分。-- chinese最高分。-- 13班math最高分。-- 每名学生的平均分。

2025-06-09 00:56:11 903

原创 Spark数据处理与分析实战报告

男生占比57.1%（32/56），女生占比42.9%：未成年学生占比约42.8%（24/56）：通过特定学生单科成绩追踪，可识别薄弱科目。：针对普遍低分科目（如语文）优化教学方法。WHERE gender = '男';：分析不同性别学生的学习模式差异。：对未成年学生提供更多学习支持。-- 性别在各科目的表现差异。-- 前20个高频词统计。# 数据转换与结构化处理。-- 各科目平均成绩分析。-- 年龄分段成绩对比。# 加载原始文本数据。

2025-06-09 00:53:14 724

原创 Spark SQL网站数据分析报告

网站信息表（my_website）：包含全球主要网站的基本信息访问日志表（my_access_log）：记录各网站的历史访问数据。

2025-06-08 22:26:08 940

原创 Spark SQL操作 1

>> df.createOrReplaceTempView('my_people_info') # 补全右括号。

2025-06-04 11:31:00 883

原创 PySpark操作MySQL及DataFrame常用操作整理

【代码】PySpark操作MySQL及DataFrame常用操作整理。

2025-06-04 11:18:30 428

原创 Spark SQL 操作指南

1.安装 JDBC 驱动cd ~/Downloadstar -zxf mysql-connector-j-8.0.31.tar.gzcp mysql-connector-j-8.0.31/mysql-connector-j-8.0.31.jar /usr/local/spark/jars1.配置连接参数prop = { 'user': 'root', 'password': '123456', 'driver': 'com.mysql.cj.jdbc.Driver'}url

2025-06-03 23:51:42 383

原创 MySQL安装与基本操作

【代码】 MySQL 基本操作。

2025-06-03 23:51:04 221

原创 Spark 词频统计

# 读取文本文件rdd1 = sc.textFile('file:///usr/local/spark/licenses/LICENSE-py4j.txt')# 查看原始数据rdd1.foreach(print)# 词频统计步骤rdd2 = rdd1.map(lambda x: x.split(' ')) # 按空格分割每行rdd2.foreach(print)rdd3 = rdd1.flatMap(lambda x: x.split(' ')) # 扁平化所有单词rdd3.f

2025-06-03 21:23:42 285

原创 RDD行动算子说明

行动算子触发实际计算并返回结果。

2025-06-03 21:02:45 239

原创 RDD转换算子说明

转换算子返回新的 RDD，不会立即执行计算（惰性求值）。

2025-06-03 20:58:58 690

原创 Kafka 快速部署与基础操作

Kafka 依赖 ZooKeeper 管理集群元数据。：Java 运行环境（已安装，可通过。通过以下命令列出所有主题，确认创建成功。：消费者会立即收到之前发送的消息。5. 创建主题 (Topic)：Ubuntu（以用户。的主题，单分区、单副本。

2025-05-02 11:57:24 639

原创 Spark RDD 常用操作

2.1在PySpark编程环境中输入以下的代码，再接着输入下面的代码执行，分析一下出现的结果。1.5查看一下所创建的RDD数据集的具体内容。1.1从集合元素创建RDD。1.3从文本文件创建RDD。1.2启动HDFS服务。

2025-03-16 22:09:38 310

原创 Spark 大数据环境搭建

在这里，可以像Linux系统本地一样执行命令，还可以通过左侧SFTP（橘色圆形图标）将Windows 本地的文件拖放上传到远程服务器，后面的 JDK、Hadoop、Spark 等软件的安装就是通过这样的方法上传到 Ubuntu20.04虚拟机的。在MobaXterm 窗体左上角找到Session图标，点击后会打开一个连接会话设置窗体，这个窗体列出了MobaXterm支持的各种远程连接类型，点击选择其中的第一项SSH图标，输入虚拟机的IP地址，然后指定登录所用的帐号spark，再点击OK即可。

2025-03-02 19:54:40 1440 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除