- 博客(16)
- 收藏
- 关注
原创 Kafka安装测试及与Spark Streaming集成指南
通过消息队列处理海量数据,支持高吞吐量传输确保消息在不同端点间可靠传递,避免数据丢失同时兼容离线批处理与实时流计算场景将消息持久化到磁盘,保障数据持久性与 Spark、Flink 等框架无缝集成,实现实时数据处理核心概念:Broker:Kafka 集群中的节点,负责存储和转发消息Topic:消息分类标识,同类消息存储在同一 Topic 中Partition:每个 Topic 可拆分为多个分区,对应磁盘上的日志文件,提升并行处理能力Offset。
2025-06-01 14:02:47
343
原创 使用PySpark Streaming实现实时单词计数:从搭建到运行
本项目将实现一个基于 PySpark Streaming 的实时单词计数应用,该应用通过监听网络端口接收文本数据,实时统计单词出现频率并周期性输出结果。该案例是 Spark Streaming 的经典入门场景,可扩展至实时日志分析、社交数据监控等场景。实时数据接收:通过 Socket 获取流数据分布式处理:利用 Spark 的并行计算能力增量计算:基于 DStream 的流式处理模型周期性输出:按设定间隔(3 秒)更新结果。
2025-06-01 14:00:38
571
原创 PySpark SQL 实战:从基础查询到数据分析案例(4/15)
PySpark SQL 是 Apache Spark 用于结构化数据处理的模块,提供编程抽象,可执行 SQL 查询并返回 DataFrame 结果。其优势在于无缝集成 SQL 查询与 Spark 的函数式编程 API。支持 SQL 和 DataFrame 两种操作方式与 Spark 生态系统无缝集成支持复杂的数据分析操作掌握 PySpark SQL 对大数据处理和分析至关重要,可通过实际案例不断实践提升应用能力。
2025-06-01 13:57:46
904
原创 Spark实时流数据处理实例
数据生成:Python 程序模拟基站交换机,生成通话记录并发送到 Kafka 主题。数据收集:Spark Streaming 从 Kafka 读取消息,按主题分类处理。数据处理:解析通话记录,计算通话时长,按年月分类。数据存储:将处理后的数据保存到 HDFS,按日期组织目录结构,便于后续分析。该方案实现了通话记录的实时收集、处理与存储,为通信计费系统提供了基础数据支撑。
2025-06-01 13:52:29
333
原创 Spark大数据分析案例
美妆商品订单数据存储在CSV文件中,它们都是结构化的数据,Spark SQL要做的工作包括数据清洗和数据预处理两个方面。| D32470|2019-4-11| S18696| 北区| 北京市| 北京市| X010| 887| 58| 51446.0|.withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')) \。
2025-06-01 13:47:40
698
原创 Spark离线数据处理实例
top5_by_category = prod_info.groupby('商品小类').apply(lambda x: x.nlargest(5, '价格')).reset_index(drop=True)sales_by_type = merged_data.groupby('商品大类')['订购数量'].sum().sort_values(ascending=False)prod_sales['月份'] = prod_sales['订单日期'].dt.to_period('M')
2025-06-01 13:42:22
711
原创 Spark应用部署模式实例
pyspark --master local[*] # 使用所有可用核心。pyspark --master local[2] # 使用2个核心。SparkSubmit # PySpark启动的Spark应用进程。# 提交Python应用到Standalone集群。# 在yarn-site.xml中增加配置。# 启动PySpark交互式环境。# 停止Standalone服务。# 上传Spark依赖到HDFS。# 以YARN客户端模式启动。# 以YARN集群模式启动。# 启动YARN服务。
2025-06-01 13:37:17
1007
原创 搭建spark伪分布集群
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 # 根据实际路径修改。在所有Spark配置文件中(特别是spark-env.sh和spark-defaults.conf),将所有。192.168.1.101 vm02 # 从节点1(如有)192.168.1.102 vm03 # 从节点2(如有)# 添加以下内容(示例IP,请根据实际修改)vm01 # 主节点也作为工作节点。# 添加工作节点主机名(每行一个)# 进入Spark配置目录。
2025-06-01 13:34:22
533
原创 pyspark、Jupter Notebook、pycharm安装和测试
在Python3.6环境中执行以下命令安装必要组件:pip install pyspark==3.3.1 # 安装与Spark版本匹配的PySparkpip install py4j # 安装Python与Java互操作桥梁组件。
2025-06-01 13:31:27
638
原创 Spark DataFrame操作详解(DSL与SQL方式)(4/8)
DSL方式更适合在代码中逐步构建数据处理流程SQL方式更适合熟悉SQL的用户执行复杂查询两种方式最终都会被Spark优化为相同的执行计划临时视图是连接DataFrame和SQL的桥梁JSON处理需要注意数据结构和模式定义。
2025-04-22 13:13:15
673
原创 MySQL与Spark SQL集成指南(4/1)
MySQL 8.0默认使用auth_socket插件进行认证,必须更改为mysql_native_password才能通过密码验证登录。sudo systemctl start mysql # 启动MySQL服务。-- 退出MySQL会话。-- 修改root认证方式并设置密码(MySQL 8.0+)-- 立即生效权限变更。-- 使用sudo权限登录MySQL控制台。-- 批量插入数据(自增ID自动生成)-- 创建支持完整字符集的数据库。-- 创建包含自增主键的表。
2025-04-22 13:08:52
695
原创 PySpark数据分析实战指南
本案例针对非结构化文本数据(LICENSE文件)进行词频统计。rdd2 = rdd1.flatMap(lambda line: line.split(' ')) # 拆分单词。rdd3 = rdd2.map(lambda x: Row(x)) # 转换为Row对象。height: 身高(cm,INT类型)使用Spark SQL进行高效统计分析。600万数据量在单机测试环境可能较慢。聚合函数与GROUP BY配合使用。id: 唯一标识(LONG类型)结果:3,091,252人。生产环境应合理设置分区数。
2025-04-22 13:05:46
679
原创 PySpark RDD操作实战指南
惰性求值:RDD转换操作不会立即执行,需要行动操作触发持久化:频繁使用的RDD应缓存(persist/cache)避免重复计算分区优化:大数据集处理时合理设置分区数提高并行度广播变量:跨节点共享数据时使用广播变量减少网络传输检查点:长时间计算链建议设置检查点防止重复计算。
2025-04-22 12:56:06
891
原创 spark编程基础(RDD离线数据计算)
rdd = sc.paralle1ize(a.3) #创建分区数 ,3表示平新分配CPU个数rdd. collectOrdd.collect #返回数据内容rdd.getNumPartitions() #返回rdd的分区数, 默认是当前CPU核数rdd. glom()collect() #返回每 个分区中的微据元素。
2025-03-16 16:48:40
473
原创 MobaXterm 远程连接工具无法连接到虚拟机
可能导致原因是曾经下载过虚拟机但没删干净。如无以上网卡则需要卸载虚拟机重新下载。在控制面版中删除虚拟机并删除注册表。使用cclean软件即可。
2025-03-09 14:53:33
616
原创 1.3 Spark 大数据环境搭建
Spark 是一款开源的分布式计算框架,最早诞生于加州大学伯克利分校的 AMPLab。它具备卓越的数据处理效能,能够在大规模数据集上实现高速运算与深度分析。Spark 对 Java、Scala 和 Python 等多种编程语言提供支持,同时配备了丰富的 API,用户借此可便捷开展数据处理、机器学习、图计算等各类任务。内存计算、容错性强、性能卓越以及易于使用,构成了 Spark 的主要特性。正因如此,它在大数据处理领域得到了极为广泛的应用。
2025-03-09 14:48:18
1050
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅