
大数据
Spark、Flink、kafka等
Scc_hy
不断进取的攻城狮
展开
-
pyspark_聚合操作
文章目录一、聚合方法1.1 aggregateByKey1.2 acombineByKey1.3 foldByKey1.4 groupby1.5 reduceByKey 一、聚合方法 大型数据集中,为了减少shuffle的数据量,相对于groupByKey来说,使用reduceByKey、combineByKey以及foldByKey 会是更好的选择 数据 def create_pair(...原创 2019-12-27 09:43:15 · 1051 阅读 · 0 评论 -
pyspark_DataFrame和RDD常见操作
文章目录二、DataFrame操作2.1 describe2.2 drop2.3 join2.4 sql2.5 withColumn 增加列三、RDD操作3.1 cartesian3.2 filter3.3 flatmap3.4 join3.5 mapPartitions3.5.1 mapPartitions例子3.5.2 每个分区内的iter处理(含空分区 和 分区内多iter)3.6 sort...原创 2019-12-27 10:15:04 · 1390 阅读 · 0 评论 -
pyspark_基本操作_基于pyspark-algorithms
文章目录一、基本操作1.1 创建spark连接1.1.1 SparkSession1.1.2 Sparkconf1.2 数据加载1.2.1 载入json1.2.2 载入文本1.2.3 载入csv1.3 一般操作1.3.1 json等有表头的数据1.3.2 rdd操作1.3.2.1 简单操作1.3.2.2 排序1.3.3 结构框架下的CSV数据 一、基本操作 from pyspark.sql imp...原创 2019-12-14 14:18:11 · 509 阅读 · 0 评论 -
pyspark_DataFrame高级操作
文章目录一、DataFrame一些操作1.1 添加列1.2 udf1.3 多行聚合1.4 单行聚合1.5 从Row结构到DataFrame1.6 交叉频率表(`crosstab`)1.7 删除重复行(`dropDuplicates`) 1.8 gruopby组合(`rollup`&`GROUPING_ID`) 二、简单数值型数据探索2.1 summary2.2 近似百分位 快速求解(`ap...翻译 2020-01-06 15:22:19 · 1103 阅读 · 0 评论