- 博客(16)
- 收藏
- 关注
原创 PySpark代统计分析
from pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql.window import Window# 创建SparkSessionspark = SparkSession.builder.appName("RetailAnalysis").getOrCreate()# 假设prod和sales表已注册为临时视图(实际需从数据源加载)# spark.read.csv(...).c
2025-06-09 17:47:33
350
原创 PySpark处理化妆品销售数据的脚本
withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')).withColumn("od_quantity", regexp_replace('od_quantity','个','')).withColumn("od_price", regexp_replace('od_price','元','')).dropDuplicates(['prod_id']) # 按商品ID去重。
2025-06-09 17:44:41
749
原创 Spark Streaming 实时数据计算
spark@ubuntu:~$ nc -lk 9999 # 启动监听 9999 端口的服务端,-l 监听,-k 保持监听 (即使客户端断开)当窗口滑动时,旧批次数据过期移出窗口,新批次数据加入窗口,然后重新计算聚合结果。Spark Streaming 接收器 (Receiver) 或直接连接器 (Direct API) 获取数据。DStream 是 Spark Streaming 提供的抽象,代表一个持续不断的数据流。(Direct API) 是更推荐的方式,效率更高,能更好地控制偏移量,无需接收器。
2025-06-09 15:06:45
1037
原创 Spark教育数据分析报告:学生考试成绩深度解析
SELECT count(distinct name) FROM my_test WHERE gender='男'WHERE id='12' AND gender='女':12班女生平均分(88.3)显著高于男生(80.2)13班数学表现突出(最高分100分)-- 12班chinese最低分。-- 12班总分>150分的女生。12班英语平均分最高(79.2)-- 小于20岁的学生人数。-- english平均分。-- chinese最高分。-- 13班math最高分。-- 每名学生的平均分。
2025-06-09 00:56:11
903
原创 Spark数据处理与分析实战报告
男生占比57.1%(32/56),女生占比42.9%:未成年学生占比约42.8%(24/56):通过特定学生单科成绩追踪,可识别薄弱科目。:针对普遍低分科目(如语文)优化教学方法。WHERE gender = '男';:分析不同性别学生的学习模式差异。:对未成年学生提供更多学习支持。-- 性别在各科目的表现差异。-- 前20个高频词统计。# 数据转换与结构化处理。-- 各科目平均成绩分析。-- 年龄分段成绩对比。# 加载原始文本数据。
2025-06-09 00:53:14
724
原创 Spark SQL网站数据分析报告
网站信息表(my_website):包含全球主要网站的基本信息访问日志表(my_access_log):记录各网站的历史访问数据。
2025-06-08 22:26:08
940
原创 Spark SQL 操作指南
1.安装 JDBC 驱动cd ~/Downloadstar -zxf mysql-connector-j-8.0.31.tar.gzcp mysql-connector-j-8.0.31/mysql-connector-j-8.0.31.jar /usr/local/spark/jars1.配置连接参数prop = { 'user': 'root', 'password': '123456', 'driver': 'com.mysql.cj.jdbc.Driver'}url
2025-06-03 23:51:42
383
原创 Spark 词频统计
# 读取文本文件rdd1 = sc.textFile('file:///usr/local/spark/licenses/LICENSE-py4j.txt')# 查看原始数据rdd1.foreach(print)# 词频统计步骤rdd2 = rdd1.map(lambda x: x.split(' ')) # 按空格分割每行rdd2.foreach(print)rdd3 = rdd1.flatMap(lambda x: x.split(' ')) # 扁平化所有单词rdd3.f
2025-06-03 21:23:42
285
原创 Kafka 快速部署与基础操作
Kafka 依赖 ZooKeeper 管理集群元数据。:Java 运行环境(已安装,可通过。通过以下命令列出所有主题,确认创建成功。:消费者会立即收到之前发送的消息。5. 创建主题 (Topic):Ubuntu(以用户。的主题,单分区、单副本。
2025-05-02 11:57:24
639
原创 Spark RDD 常用操作
2.1在PySpark编程环境中输入以下的代码,再接着输入下面的代码执行,分析一下出现的结果。1.5查看一下所创建的RDD数据集的具体内容。1.1从集合元素创建RDD。1.3从文本文件创建RDD。1.2启动HDFS服务。
2025-03-16 22:09:38
310
原创 Spark 大数据环境搭建
在这里,可以像Linux系统本地 一样执行命令,还可以通过左侧SFTP(橘色圆形图标)将Windows 本地的文件拖放上传到 远程服务器,后面的 JDK、Hadoop、Spark 等软件的安装就是通过这样的方法上传到 Ubuntu20.04虚拟机的。在MobaXterm 窗体左上角找到Session图标,点击后会打开一个连接会话设置窗体,这 个窗体列出了MobaXterm支持的各种远程连接类型,点击选择其中的第一项SSH图标,输入 虚拟机的IP地址,然后指定登录所用的帐号spark,再点击OK即可。
2025-03-02 19:54:40
1440
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅