自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 PySpark代统计分析

from pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql.window import Window# 创建SparkSessionspark = SparkSession.builder.appName("RetailAnalysis").getOrCreate()# 假设prod和sales表已注册为临时视图(实际需从数据源加载)# spark.read.csv(...).c

2025-06-09 17:47:33 350

原创 PySpark处理化妆品销售数据的脚本

withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')).withColumn("od_quantity", regexp_replace('od_quantity','个','')).withColumn("od_price", regexp_replace('od_price','元','')).dropDuplicates(['prod_id']) # 按商品ID去重。

2025-06-09 17:44:41 749

原创 Spark Streaming 实时数据计算

spark@ubuntu:~$ nc -lk 9999 # 启动监听 9999 端口的服务端,-l 监听,-k 保持监听 (即使客户端断开)当窗口滑动时,旧批次数据过期移出窗口,新批次数据加入窗口,然后重新计算聚合结果。Spark Streaming 接收器 (Receiver) 或直接连接器 (Direct API) 获取数据。DStream 是 Spark Streaming 提供的抽象,代表一个持续不断的数据流。(Direct API) 是更推荐的方式,效率更高,能更好地控制偏移量,无需接收器。

2025-06-09 15:06:45 1037

原创 Spark教育数据分析报告:学生考试成绩深度解析

SELECT count(distinct name) FROM my_test WHERE gender='男'WHERE id='12' AND gender='女':12班女生平均分(88.3)显著高于男生(80.2)13班数学表现突出(最高分100分)-- 12班chinese最低分。-- 12班总分>150分的女生。12班英语平均分最高(79.2)-- 小于20岁的学生人数。-- english平均分。-- chinese最高分。-- 13班math最高分。-- 每名学生的平均分。

2025-06-09 00:56:11 903

原创 Spark数据处理与分析实战报告

男生占比57.1%(32/56),女生占比42.9%:未成年学生占比约42.8%(24/56):通过特定学生单科成绩追踪,可识别薄弱科目。:针对普遍低分科目(如语文)优化教学方法。WHERE gender = '男';:分析不同性别学生的学习模式差异。:对未成年学生提供更多学习支持。-- 性别在各科目的表现差异。-- 前20个高频词统计。# 数据转换与结构化处理。-- 各科目平均成绩分析。-- 年龄分段成绩对比。# 加载原始文本数据。

2025-06-09 00:53:14 724

原创 Spark SQL网站数据分析报告

网站信息表(my_website):包含全球主要网站的基本信息访问日志表(my_access_log):记录各网站的历史访问数据。

2025-06-08 22:26:08 940

原创 Spark SQL操作 1

>> df.createOrReplaceTempView('my_people_info') # 补全右括号。

2025-06-04 11:31:00 883

原创 PySpark操作MySQL及DataFrame常用操作整理

【代码】PySpark操作MySQL及DataFrame常用操作整理。

2025-06-04 11:18:30 428

原创 Spark SQL 操作指南

1.安装 JDBC 驱动cd ~/Downloadstar -zxf mysql-connector-j-8.0.31.tar.gzcp mysql-connector-j-8.0.31/mysql-connector-j-8.0.31.jar /usr/local/spark/jars1.配置连接参数prop = { 'user': 'root', 'password': '123456', 'driver': 'com.mysql.cj.jdbc.Driver'}url

2025-06-03 23:51:42 383

原创 MySQL安装与基本操作

【代码】 MySQL 基本操作。

2025-06-03 23:51:04 221

原创 Spark 词频统计

# 读取文本文件rdd1 = sc.textFile('file:///usr/local/spark/licenses/LICENSE-py4j.txt')# 查看原始数据rdd1.foreach(print)# 词频统计步骤rdd2 = rdd1.map(lambda x: x.split(' ')) # 按空格分割每行rdd2.foreach(print)rdd3 = rdd1.flatMap(lambda x: x.split(' ')) # 扁平化所有单词rdd3.f

2025-06-03 21:23:42 285

原创 RDD行动算子说明

行动算子触发实际计算并返回结果。

2025-06-03 21:02:45 239

原创 RDD转换算子说明

转换算子返回新的 RDD,不会立即执行计算(惰性求值)。

2025-06-03 20:58:58 690

原创 Kafka 快速部署与基础操作

Kafka 依赖 ZooKeeper 管理集群元数据。:Java 运行环境(已安装,可通过。通过以下命令列出所有主题,确认创建成功。:消费者会立即收到之前发送的消息。5. 创建主题 (Topic):Ubuntu(以用户。的主题,单分区、单副本。

2025-05-02 11:57:24 639

原创 Spark RDD 常用操作

2.1在PySpark编程环境中输入以下的代码,再接着输入下面的代码执行,分析一下出现的结果。1.5查看一下所创建的RDD数据集的具体内容。1.1从集合元素创建RDD。1.3从文本文件创建RDD。1.2启动HDFS服务。

2025-03-16 22:09:38 310

原创 Spark 大数据环境搭建

在这里,可以像Linux系统本地 一样执行命令,还可以通过左侧SFTP(橘色圆形图标)将Windows 本地的文件拖放上传到 远程服务器,后面的 JDK、Hadoop、Spark 等软件的安装就是通过这样的方法上传到 Ubuntu20.04虚拟机的。在MobaXterm 窗体左上角找到Session图标,点击后会打开一个连接会话设置窗体,这 个窗体列出了MobaXterm支持的各种远程连接类型,点击选择其中的第一项SSH图标,输入 虚拟机的IP地址,然后指定登录所用的帐号spark,再点击OK即可。

2025-03-02 19:54:40 1440 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除