
Spark笔记
Spark知识总结
数据科学家修炼之道
Life is short, I use Python、Scala、Java、R、Julia、Spark、Flink、Matlab、Spss、Stata、Sas、ML and DL.
展开
-
Spark中rdd的reduce操作的具体过程
rdd的reduce过程利用二元函数(如lambda x, y: x + y)对数据进行规约,首先将rdd的前两个元素应用于该二元函数,得到结果a,然后再将a和rdd的第三个元素应用于该二元函数,得到结果b,以此类推直到用完所有元素。rdd = sc.parallelize(range(10), 3)diff = rdd.reduce(lambda x, y: x - y)print('diff: %s' % diff)运行结果:diff: 21# 解释下为什么结果为21:>>原创 2021-03-28 11:58:21 · 3698 阅读 · 3 评论 -
Spark DataFrame添加一列单调递增的id列
import org.apache.spark.sql.functions._val newDataFrame = dataFrame.withColumn("id", monotonically_increasing_id)这样只能添加id列,不能单调递增import org.apache.spark.sql.expressions.Windowimport org.apache...原创 2018-09-07 16:11:51 · 6779 阅读 · 9 评论 -
Spark常用操作
保存dataframe到本地或hdfs df.write.csv(“1.csv”) df.write.csv(“file:/home/dir”) df.coalesce(1).write.csv(“1.csv”) df.coalesce(1).write.format(“com.databricks.spark.csv”).save(“/data/home/sample.csv”) df...原创 2018-07-25 15:49:47 · 770 阅读 · 0 评论 -
Spark下的Work目录定时清理
问题在跑spark任务的时候发现任务不能执行。在查看的时候发现spark work节点的/usr/ 目录满了。原因使用spark standalone模式执行任务,没提交一次任务,在每个节点work目录下都会生成一个文件夹,命名规则app-20160614191730-0249。该文件夹下是任务提交时,各节点从主节点下载的程序所需要的资源文件。 这些目录每次执行都会生成,且不会自动...转载 2018-07-18 15:43:10 · 6806 阅读 · 2 评论 -
Spark将DataFrame写入MySQL时遇到的问题
DataFrame如何写入MySQLval host = "localhost"val port = "3306"val user = "user"val password = "password"val database = "test"val table = "test"val saveMode = SaveMode.Overwrite // 支持4中写入方式Ap原创 2018-07-11 13:44:56 · 3646 阅读 · 0 评论 -
spark性能优化指南
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更...转载 2018-07-02 13:03:39 · 246 阅读 · 0 评论 -
为Spark集群配置jupyter notebook的Spark kernel
在Jupyter的官方github的kernel list里有一个sparkmagic,安装之后就可以直接在jupyter 中创建Spark、PySpark、PySpark3和SparkR这几种kernel的notebook了。下面介绍一下安装过程。安装Livysparkmagic是基于Livy的,必须先在集群的master上安装好Livy。Livy的安装很简单(在mast...原创 2018-05-10 14:05:56 · 3154 阅读 · 1 评论 -
Win10+Hadoop2.7.5+Spark2.3环境配置
Win10+Hadoop2.7.5的环境配置参考如下链接: https://blog.youkuaiyun.com/xiligey1/article/details/79728152Java和Spark安装好了之后,就只剩下Scala和Spark了版本: - Scala2.11(Spark2.3与Scala2.11适配) - Spark2.31.官网下载scala2.11太慢,链接: h...原创 2018-03-28 15:55:10 · 1872 阅读 · 0 评论