spark
一直奋斗的小猿
技术改变未来!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark集群搭建
Spark安装 1.1集群角色 从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点,Master节点主要运行集群管理器的中心化部分,所承载的作用是分配Application到Worker节点,维护Worker节点,Driver,Application的状态。 Worker节点负责具体的业务运行。 说明:本次安装以Standalone为例来安装。 2.2 机器...原创 2019-08-03 21:00:54 · 288 阅读 · 0 评论 -
Spark core 之 RDD操作
RDD中操作分类两大类型:转换(transformation)和行动(action) 转换:通过操作将一个RDD转换成另外一个RDD。 行动:将一个RDD进行求值或者输出。 所有这些操作主要针对两种类型的RDD: (1) 数值RDD (2) 键值对RDD 我们用的最多的就是键值对RDD,然后引起一些比如说数据的不平衡,这个也就是键值对RDD引起 的。 RDD的所有转换操作都是懒执行的,只有当行动操...原创 2019-08-10 20:53:07 · 414 阅读 · 0 评论 -
Spark SQL 客户端查询
首先打开shell,会发现在bin目录下会有一个叫spark-sql,那除了用spark-sql外,还可以用 spark-shell,那它们有什么区别呢,spark-sql仅仅类似于hive客户端,只是支持sql查询,spark-shell 不仅可以支持sql查询,还可以执行RDD的一些操作,包括RDD和SparkSQL之间的转换。 接下来进入spark-shell里面,会有两个输出 第一个输出...原创 2019-08-14 19:44:59 · 2699 阅读 · 0 评论 -
Spark里log4j.properties日志等级设置
通常我们在console输入命令后,总会出现好多的INFO或WARN,而我们总不能第一时间看到我们运 行结果或出错原因,那这个时候我们就可以将我们的log4j日志等级设置一下。 首先进入到spark目录的conf下,有个log4j.properties.template,你可以复制一份然后重命名为 log4j.properties。 然后进入log4j.properties里编辑日志等级,那它的...原创 2019-08-07 19:31:42 · 976 阅读 · 0 评论 -
Spark SQL及RDD、DataFrame、DataSet数据抽象
** 一、Spark SQL是什么? ** 1、Spark SQL是Spark套件中的一个模块,它将数据的计算任务通过SQL的形式转换成了RDD的计 算,类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。 2、Spark SQL的特点: (1) 和Spark Core的无缝集成,我可以在写整个RDD应用的时候,配置Spark SQL来实现我的逻辑 (2) 统一的数据访问方式...原创 2019-08-13 20:00:13 · 863 阅读 · 0 评论 -
Spark core 之 RDD运行机制深层理解
Spark core RDD: Resilient Distributed Dataset(弹性分布式数据集),Spark计算的基石,为用户屏蔽了底层对数 据的复杂抽象和处理,为用户提供了一组方便的数据转换与求值方法。 特性: 不可变:RDD创建以后就不可变了 可分区:整个RDD的真实数据其实是分散在spark的很多的worker上面的,每个worker可能会存了这 些数据的一部分,这个叫分片也叫...原创 2019-08-08 19:19:37 · 288 阅读 · 0 评论 -
启动spark集群时两个worker节点异常:failed to launch: nice -n 0 spark-class --webui-port 8081 spark://master:7077
之前出现这个错的时候,在网上google了好久,没解决,后来看到有人说在root用户下的 .bashrc下引入JAVA_HOME的路径,也有大佬说需要在/spark/sbin/spark-config.sh 加入JAVA_HOME的路径,我在/spark/sbin/spark-config.sh里加入JAVA_HOME的路径后,在运行就不报错了,可供参考 ...原创 2019-08-06 11:28:59 · 2437 阅读 · 0 评论 -
Spark之HA配置
首先安装Zookeeper集群,并启动Zookeeper集群,同时开启hdfs集群 停止spark所有服务,修改配置文件spark-env.sh,在该配置文件中删掉SPARK_MASTER_IP并添加如下配置: export SPARK_DAEMON_JAVA_OPTS=" -Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deplo...原创 2019-08-05 19:39:47 · 343 阅读 · 0 评论 -
Spark之配置Job History Server
首先进入到Spark安装目录下的配置文件: cd /home/groot/soft/spark/conf 将spark-default.conf.template复制为spark-defaults.conf: cp spark-defaults.conf.template spark-defaults.conf 修改spark-defaults.conf文件,开启Log: vi spark-...原创 2019-08-04 19:41:11 · 397 阅读 · 0 评论 -
SparkSQL 之 IDEA创建SparkSQL程序
DataFrame 查询方式 DataFrame支持两种查询方式,一种是DSL风格,另外一种是SQL风格 1、DSL风格: 你需要引入 import spark.implicit._ 这个隐式转换,可以将DataFrame隐式转换成RDD 2、SQL风格: (1)、你需要将DataFrame注册成一张表格,如果你通过CreateTempView这种方式来创建,那么该表格Session有 效,如果...原创 2019-08-15 17:39:14 · 1334 阅读 · 0 评论
分享