
Spark
文章平均质量分 88
spark记录
cbigchaos
个人学习用
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
idea连接spark错误java.io.IOException: (null) entry in command string: null ls -F D:\tmp\hive
文章目录错误的原因解决办法准备用idea搭建项目,spark远程调试,遇到了这个错java.io.IOException: (null) entry in command string: null ls -F D:\tmp\hive错误的原因1、Window没有Hadoop的解压文件,更没有配置环境变量2、缺少winutils.exe和hadoop.dll文件解决办法1、将Hadoop的安装包解压(可以直接拿linux的安装包版本保持一致)2、配置环境变量3、将hadoop.dl原创 2020-07-26 16:15:26 · 1942 阅读 · 1 评论 -
【Spark】(四) Spark调优总结
文章目录一、开发调优1、避免创建重复的RDD2、尽可能复用用一个RDD3、对多次使用的RDD进行持久化4、尽量避免使用shuffle类算子5、使用map-side预聚合的shuffle操作6、使用高性能的算子7、广播大变量。8、使用Kryo优化序列化性能。9、优化数据结构。10、对数据进行压缩。11、合并小文件。Spark的瓶颈一般来自于集群(standalone, yarn, mesos, ...转载 2020-04-25 11:53:44 · 548 阅读 · 0 评论 -
【Spark】(三) Spark Core
数据结构——RDDRDD: 弹性分布式数据集,spark核心,主要数据抽象分布式数据集 RDD是只读、分区记录的集合,每个分区在集群的不同节点上;RDD并不是存储真正的数据,只是对数据和操作的描述弹性:RDD默认存放在内存中,当内存不足,Spark自动将RDD写入磁盘容错性:根据数据血统,可以自动从节点失败中恢复分区DatasetDataFrameDAG:有向无环图,反映了RD...原创 2020-04-23 21:04:54 · 471 阅读 · 1 评论 -
【Spark】(二) Spark入门
Spark架构 spark框架原理:是基于内存的一种迭代式计算框架,处理的数据可以来自任何一种存储介质,如:关系型数据库,本地文件系统,分布式存储等,Spark从数据存储介质中装载需要处理的数据到内存中,并将这些数据集抽象为RDD(弹性分布式数据集对象),然后采用一系列的算子(封装计算逻辑的API)来处理这些RDD,并将处理好的额结果以RDD的形式输出到内存以数据流的方式持久化写入到其他存储介...原创 2020-04-23 15:30:25 · 586 阅读 · 1 评论 -
【Spark】(一)Spark安装配置
浏览器输入地址192.168.56.171:9999。到主节点spark的sbin下运行。spark实现World Count。Scala(不安装进程也可以启动)2.1 配置conf目录下的。2.3 配置sbin目录下的。在虚拟机里面使用spark。原创 2020-04-25 13:09:21 · 419 阅读 · 0 评论