Spark
文章平均质量分 77
还是那个同伟伟
百万代码中取bug首级
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark配置大全(逐步更新中)
本文总结了Spark应用程序的关键配置项,主要涵盖以下方面:1.应用程序属性(名称、集群管理器URL、JVM参数等);2.运行时环境(Python路径、临时目录等);3.Shuffle行为(分区数、压缩等);4.SparkSQL配置(广播Join、自适应查询等);5.内存管理(Executor/Driver内存分配);6.执行器行为(核心数、动态分配);7.网络与调度配置;8.安全设置(认证、SSL);9.序列化与压缩;10.集群管理器特定配置。这些配置参数直接影响Spark应用的性能、稳定性和资源利用率,原创 2025-10-28 15:21:52 · 496 阅读 · 0 评论 -
Pyspark DataFrame常用操作函数和示例
1.打印前几行1.1 show()函数show()函数会将指定数量的行(默认是 20 行)转换为字符串并打印到控制台。无返回值,直接打印数据到控制台。df.show() # 默认显示前 20 行df.show(10) # 显示前 10 行1.2 take()函数用于获取 DataFrame 的前 N 行数据,返回一个包含 Row 对象的列表。返回一个包含 Row 对象的列表。返回一个包含前 N 行数据的列表,每行数据以 Ro原创 2024-09-06 16:35:30 · 1776 阅读 · 0 评论 -
Spark与PySpark(1.概述、框架、模块)
大规模数据处理的统一分析引擎弹性分布式数据集(即RDD)的概念。原创 2023-12-11 16:44:38 · 1855 阅读 · 0 评论
分享