
Spark
風の唄を聴け
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[Spark] 自定义函数 udf & pandas_udf
首先引入所需模块from pyspark.conf import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.sql.functions import udf, pandas_udf, PandasUDFTypeconf=SparkConf()conf.setAppName('my-app')conf.set('...原创 2020-03-05 16:45:38 · 1059 阅读 · 0 评论 -
[Spark] 学习笔记 (一)
1. 分区为了让多个执行器并行地工作,Spark 将数据分解成多个数据块,每个数据块叫做一个分区。 分区是位于集群中的一台物理机上的多行数据的集合,DataFrame 的分区也说明了在执行过程 中,数据在集群中的物理分布。如果只有一个分区,即使拥有数千个执行器,Spark 也只有一 个执行器在处理数据。类似地,如果有多个分区,但只有一个执行器,那么 Spark 仍然只有那 一个执行器在处理数据,...原创 2019-12-10 09:41:38 · 181 阅读 · 0 评论 -
[Spark] Spark/PySpark 的安装及配置
1. 安装 JAVA详细步骤可以参考: [Linux] 安装 JAVA2. 安装 Spark下载单机版 Spark, 当前最新版本 spark-2.4.4-bin-hadoop2.7.tgzwget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz解...原创 2019-11-14 13:27:34 · 1113 阅读 · 0 评论