SPARK
SummerHmh
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pyspark之DataFrame写hive表方式
文章目录spark 语句静态分区动态分区spark SQL 处理方法例子最近用spark写hive的过程中,遇到了一些问题,故此把这一块整理整理,供使用参考spark 语句hive中静态分区和动态分区的区别在于,静态分区是指定分区值,动态区分是根据值进行自动添加到对应的分区。后者在效率上会比较低,需要启动与分区数相同的数量的reducer静态分区df.write.mode('overwr...原创 2020-01-03 15:30:59 · 10032 阅读 · 1 评论 -
林子雨-Spark入门教程(Python版)-学习笔记(二)
第3章 Spark编程基础从文件加载数据从文件系统中加载数据创建RDD——textFile()方法,该方法把文件的URI作为参数注意:(1)本地文件系统的路径,必须要保证在所有的worker节点上都有该文件。(2)textFile()方法的输入参数,可以是文件名,也可以是目录,也可以是压缩文件等。比如,textFile(“/my/directory”), textFile(“/my/di...原创 2019-05-15 18:40:00 · 2041 阅读 · 0 评论 -
林子雨-Spark入门教程(Python版)-学习笔记(一)
第1章 Spark的设计与运行原理简介hadoop中计算框架MapReduce的缺点:表能能力有限,计算都必须要转化成Map和Reduce两个操作,难以表示复杂场景IO开销大,中间结果写入到磁盘中,每次执行时都需要从磁盘读取数据延迟高,IO读取耗时,同时任务串行进行,等待时间长于是,引入了SPARK:更多操作算子,计算模式虽然也属于MapReduce,但具备更多算子内存计算,...原创 2019-05-13 17:15:09 · 3584 阅读 · 0 评论 -
Spark之Window
文章目录Spark 安装部署RDD此学习路线基于window单机模式Spark 安装部署JDK部署Spark是跑在JVM上,所以必须部署JDK提供百度网盘的JDK下载地址:64位操作系统:jdk-8u211-windows-x64.exe32位操作系统:jdk-8u211-windows-i586.exeSpark部署Spark 从官网上下载Spark-2.4.1 解压后 bi...原创 2019-04-25 22:59:06 · 819 阅读 · 0 评论
分享