Spark
文章平均质量分 88
harli
移椅倚桐同赏月,等灯登阁各攻书!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark集群关闭失败
错误提示信息: 原因分析: 可能是因为找不到Worker与Master节点对应的pid文件,导致这种错误。 解决方法: 查看pid文件是不是放在tmp目录下,由于linux系统会定时(或重启时)删除tmp目录,所以导致pid文件缺失。查看脚本spark-daemon.sh: PID默认存放路径为/tmp原创 2015-03-06 01:13:00 · 737 阅读 · 0 评论 -
hive 中 非默认数据库的json字段
使用 hive 的函数 get_json_object, 方式:1. 指定From中的表所在是数据库名SELECT get_json_object(tableName.json, '$.jsonField') , json FROM databaseName.tableName;2. 指定表别名:SELECT get_json_object(aliasName.json, '原创 2016-08-19 15:50:52 · 1002 阅读 · 0 评论 -
spark sql 中 hive变量的使用记录
一、 使用变量的方式: 和 hive 中使用方式一样,如 ${varName}案例如下:scala> spark.sql("set unit_len=8")res3: org.apache.spark.sql.DataFrame = [key: string, value: string]scala> spark.sql("set unit_flag=unit_day"原创 2016-08-19 14:18:34 · 9005 阅读 · 0 评论 -
基于Spark SQL 读写Oracle 的简单案例分析常见问题
1 概述本文主要内容包含Spark SQL读写Oracle表数据的简单案例,并针对案例中比较常见的几个问题给出解决方法。最后从常见的java.lang.ClassNotFoundException(无法找到驱动类)的异常问题出发,分析相关的几种解决方法,以及各个解决方法之间的异同点。2 案例中比较常见问题及其解决方法2.1 启动首原创 2016-04-28 14:08:36 · 20324 阅读 · 0 评论 -
小知识点-大数据处理之初步理解
单机处理时扩展到集群处理: 单机数据处理 à 集群大数据处理对应的变化:1. 单机上的计算 à 集群中的计算2. 单机上的数据存储 à 集群中的数据存储3. 单机上的计算资源极其管理 à 集群中的计算资源极其管理将生态圈中的各个框架对应到计算、数据存储于资源管理三大部分:1. 集群计算:Spark计算框架、 Hadoop的MR原创 2016-03-29 01:59:03 · 981 阅读 · 0 评论 -
小知识点实践——RDD 在STAGE 中计算时的PIPELINE测试
小知识点实践——RDD 在Stage 中计算时的pipeline测试1 分析在Stage中,以pipeline方式进行计算,计算时对分区的每一条记录是依次从头到尾(在数据获取角度存在回溯的概念,但执行上是从前到后依次计算)使用各个操作算子进来实现的。下面以一条记录计算后对应一条记录为例进行说明(可以认为是map操作,对应逻辑可以扩展到filter、flatMap等原创 2016-03-23 18:20:35 · 703 阅读 · 0 评论 -
小知识点源码解析-STAGE由最后一个RDD确定并行度的源码解析
以ShuffleMapStage 为例进行解析。1 假设RDD A – ShuffleDependency – RDD B 即 RDD B依赖 RDD A,并且依赖关系为宽依赖—— 依赖,针对的是两个RDD之间的关系,RDD可以有多个父依赖RDD,但针对每个父依赖RDD都会有对应的具体依赖。2 关键源码及其解析关键源码为构建ShuffleMapStage 的原创 2016-03-23 02:25:53 · 607 阅读 · 0 评论 -
窄依赖的pipeline作用对象分析
当父子RDD间的依赖为窄依赖时,可以pipeline 但对应的pipeline作用在分区数据层,而不是作用在记录级别,在性能上并没有完全体现pipeline的最大优势。如:filter + map, 对应在父RDD的各个分区中,会有一次iterator的filter,然后pipeline时,再次子RDD各个分区的iterator的map。如果iterator本身支持pipeline,则可以通过sc原创 2015-03-13 11:26:30 · 680 阅读 · 0 评论 -
编译Spark应用代码报对象已定义错误
错误界面: ** 提供者:北京-hadoop-happy解决分析: 从重复加载进行考虑,查看依赖的jar包是否重复有10和11两个Scala版本。原创 2015-03-06 01:23:36 · 517 阅读 · 0 评论 -
Spark应用运行时报错
报错信息与Scala有关,如类型不能转换,方法找不到等等,先检查下,编译对象依赖的Scala版本,有以下两种可能: a) 运行环境的scala版本与编译时使用的版本不一致 b) 引进的依赖包,如scalatest等,编译时的scala版本与运行时的版本不一致。 错误信息如:java.lang.ClassCastExceptionException in thread “main” ja原创 2015-03-06 01:17:52 · 978 阅读 · 0 评论 -
IDEA的auto import 与 Scala的隐式转换
IDEA的auto import 与 Scala的隐式转换设置IDEA的auto import 之后,编写Spark应用程序时的一些自动导入情况及其说明。第一种情况 普通类的自动导入 如代码: var cnames = new ArrayBuffer[String]() var ips = new ArrayBuffer[String]()此时自动导入设置会提示: 第二种情况 针原创 2015-03-05 22:44:04 · 2437 阅读 · 0 评论 -
Spark单节点多应用启动失败
单节点多应用:指在单个节点上,运行了多个应用程序(driver)—— 包含client或cluster模式。 1. 问题:在同一个节点启动多个应用 时,报java.net.BindException:地址已在使用,报错信息如下: 2. 原因:driver会启动一个jetty server,此时会绑定一个driver上的默认端口(4040),如果driver所在节点已经启动了一个应用的话,原创 2015-03-06 01:21:21 · 1285 阅读 · 0 评论 -
Spark提交应用失败
第一种失败: TaskSchedulerImpl 调度失败 报错信息: TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory 原因分析: 1. w原创 2015-03-06 01:16:22 · 995 阅读 · 0 评论 -
随笔:配置属性的设置
配置属性:1. 确认对应配置属性是否正确2. 确认配置属性作用于哪个组件,如 :Spark 的 Master 还是 Worker 组件3. 确认对应配置对应组件的使用时机:启动时、运行时 —— 如:配置后是否需要重新启动才能生效,或者是否是支持动态变更属性4. 确认该组件所在节点上可以获取该配置的属性 —— 如 :分布式时,是否需要发布到各个节点5. 各种框架都有自己的属性配置原创 2017-03-16 14:58:00 · 557 阅读 · 0 评论
分享