2501_90817142-优快云博客

原创 Kafka安装测试及与Spark Streaming集成指南

通过消息队列处理海量数据，支持高吞吐量传输确保消息在不同端点间可靠传递，避免数据丢失同时兼容离线批处理与实时流计算场景将消息持久化到磁盘，保障数据持久性与 Spark、Flink 等框架无缝集成，实现实时数据处理核心概念：Broker：Kafka 集群中的节点，负责存储和转发消息Topic：消息分类标识，同类消息存储在同一 Topic 中Partition：每个 Topic 可拆分为多个分区，对应磁盘上的日志文件，提升并行处理能力Offset。

2025-06-01 14:02:47 343

原创使用PySpark Streaming实现实时单词计数：从搭建到运行

本项目将实现一个基于 PySpark Streaming 的实时单词计数应用，该应用通过监听网络端口接收文本数据，实时统计单词出现频率并周期性输出结果。该案例是 Spark Streaming 的经典入门场景，可扩展至实时日志分析、社交数据监控等场景。实时数据接收：通过 Socket 获取流数据分布式处理：利用 Spark 的并行计算能力增量计算：基于 DStream 的流式处理模型周期性输出：按设定间隔（3 秒）更新结果。

2025-06-01 14:00:38 571

原创 PySpark SQL 实战：从基础查询到数据分析案例（4/15）

PySpark SQL 是 Apache Spark 用于结构化数据处理的模块，提供编程抽象，可执行 SQL 查询并返回 DataFrame 结果。其优势在于无缝集成 SQL 查询与 Spark 的函数式编程 API。支持 SQL 和 DataFrame 两种操作方式与 Spark 生态系统无缝集成支持复杂的数据分析操作掌握 PySpark SQL 对大数据处理和分析至关重要，可通过实际案例不断实践提升应用能力。

2025-06-01 13:57:46 904

原创 Spark实时流数据处理实例

数据生成：Python 程序模拟基站交换机，生成通话记录并发送到 Kafka 主题。数据收集：Spark Streaming 从 Kafka 读取消息，按主题分类处理。数据处理：解析通话记录，计算通话时长，按年月分类。数据存储：将处理后的数据保存到 HDFS，按日期组织目录结构，便于后续分析。该方案实现了通话记录的实时收集、处理与存储，为通信计费系统提供了基础数据支撑。

2025-06-01 13:52:29 333

原创 Spark大数据分析案例

美妆商品订单数据存储在CSV文件中，它们都是结构化的数据，Spark SQL要做的工作包括数据清洗和数据预处理两个方面。| D32470|2019-4-11| S18696| 北区| 北京市| 北京市| X010| 887| 58| 51446.0|.withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')) \。

2025-06-01 13:47:40 698

原创 Spark离线数据处理实例

top5_by_category = prod_info.groupby('商品小类').apply(lambda x: x.nlargest(5, '价格')).reset_index(drop=True)sales_by_type = merged_data.groupby('商品大类')['订购数量'].sum().sort_values(ascending=False)prod_sales['月份'] = prod_sales['订单日期'].dt.to_period('M')

2025-06-01 13:42:22 711

原创 Spark应用部署模式实例

pyspark --master local[*] # 使用所有可用核心。pyspark --master local[2] # 使用2个核心。SparkSubmit # PySpark启动的Spark应用进程。# 提交Python应用到Standalone集群。# 在yarn-site.xml中增加配置。# 启动PySpark交互式环境。# 停止Standalone服务。# 上传Spark依赖到HDFS。# 以YARN客户端模式启动。# 以YARN集群模式启动。# 启动YARN服务。

2025-06-01 13:37:17 1008

原创搭建spark伪分布集群

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 # 根据实际路径修改。在所有Spark配置文件中（特别是spark-env.sh和spark-defaults.conf），将所有。192.168.1.101 vm02 # 从节点1（如有）192.168.1.102 vm03 # 从节点2（如有）# 添加以下内容（示例IP，请根据实际修改）vm01 # 主节点也作为工作节点。# 添加工作节点主机名（每行一个）# 进入Spark配置目录。

2025-06-01 13:34:22 533

原创 pyspark、Jupter Notebook、pycharm安装和测试

在Python3.6环境中执行以下命令安装必要组件：pip install pyspark==3.3.1 # 安装与Spark版本匹配的PySparkpip install py4j # 安装Python与Java互操作桥梁组件。

2025-06-01 13:31:27 639

原创 Spark DataFrame操作详解（DSL与SQL方式）（4/8）

DSL方式更适合在代码中逐步构建数据处理流程SQL方式更适合熟悉SQL的用户执行复杂查询两种方式最终都会被Spark优化为相同的执行计划临时视图是连接DataFrame和SQL的桥梁JSON处理需要注意数据结构和模式定义。

2025-04-22 13:13:15 673

原创 MySQL与Spark SQL集成指南(4/1)

MySQL 8.0默认使用auth_socket插件进行认证，必须更改为mysql_native_password才能通过密码验证登录。sudo systemctl start mysql # 启动MySQL服务。-- 退出MySQL会话。-- 修改root认证方式并设置密码（MySQL 8.0+）-- 立即生效权限变更。-- 使用sudo权限登录MySQL控制台。-- 批量插入数据（自增ID自动生成）-- 创建支持完整字符集的数据库。-- 创建包含自增主键的表。

2025-04-22 13:08:52 695

原创 PySpark数据分析实战指南

本案例针对非结构化文本数据（LICENSE文件）进行词频统计。rdd2 = rdd1.flatMap(lambda line: line.split(' ')) # 拆分单词。rdd3 = rdd2.map(lambda x: Row(x)) # 转换为Row对象。height: 身高（cm，INT类型）使用Spark SQL进行高效统计分析。600万数据量在单机测试环境可能较慢。聚合函数与GROUP BY配合使用。id: 唯一标识（LONG类型）结果：3,091,252人。生产环境应合理设置分区数。

2025-04-22 13:05:46 679

2501_90817142的博客