
spark
yala说
这个作者很懒,什么都没留下…
展开
-
dateSet 、rdd 和dateframe 区别
三种数据结构出现的版本顺序RDD (Spark1.0) -->Dataframe(Spark1.3) -->Dataset(Spark1.6)RDDrdd的五大特性 这个用了很多,但是当突然被问到五大特性时,竟然一时卡壳,只记得弹性可分区和容错 ,而血统、依赖和数据本地化并没有归并到特性中,重新查看资料后,发现自己错在把rdd当成一种数据集合, 可分区列表:可以创建指定分区数目,可以生成新的rdd来改变分区数 作用在分区的函数:rdd的计算都是以分区为单位 依赖关系...原创 2020-09-15 16:35:00 · 817 阅读 · 0 评论 -
spark-sql运行脚本报错 tasks bigger than bigger than spark.driver.maxResult
spark-sql执行脚本,导出数据的脚本爆出如下异常;Caused by: org.apache.spark.SparkException:Job aborted due to stage failure: Total size of serializedresults of 1212tasks (10300 MB) is bigger thanspark.driver.maxResul...原创 2020-02-29 16:49:15 · 831 阅读 · 0 评论 -
spark-sql 堆外内存溢出
运行执行spark-sql 脚本文件,爆出对堆外内存溢出错误如下图,先区分发生异常是executor端还是driver端,我遇到的问题是driver端,因为最后数据导出生成文件,数据会在driver端收集结果集。调节方式有两种,第一种正大driver-memory值,堆外内存计算公式默认是max(0.1*driver-memory ,384M),(executory的的对外内存计算公式也是一样...原创 2020-02-29 16:32:40 · 1255 阅读 · 2 评论 -
spark1.5.1执行spark-sql client执行insert into 报错 解决
原先语句是在spark2.1上执行的sql,现在放到spark1.5上执行执行失败;现象描述:如果没有用insert 直接执行select 语句,是不会报错,执行insert 但是去除exists的子查询,也是不会报错。所以感觉很奇怪,然后将not exists用left anti join 代替 发现spark1.5也不支持。各种尝试后最后在inert into 后面加上table 关键字...原创 2020-01-07 18:34:21 · 4100 阅读 · 0 评论 -
测试环境csv文件数据导入parquet存储文件后用limit查询报错问题解决
数据导入流程先将oracle数据导出为csv文件,在将csv文件进行删除表头(第一行),删除双引号,替换时间分隔符等操作;然后创建对应表两张,一张表A存储格式textfile,另一张B表存储格式parquet,,先将csv文件导入A表,在通过A表导入B表。最后select count(*) from B ;有数据,但是执行select * from B limit 2 ;执行报错 提示类型问题...原创 2019-12-26 17:47:33 · 343 阅读 · 0 评论 -
spark-sql导入数据遇到的问题
spark-sql 客户端通过load data local inpath '/xx/xx' into table xx;方式导入,数据来源是oracle导出的csv文件数据导入后遇到下面的问题1,字符串带有双引号问题 通过sed命令直接替删除字段完成;2 , 时间类型格式不正确,导出时没有设定时间格式,如果导出时yyyy/MM/dd HH:mm:ss,二spark支持的是yyyy-...原创 2019-12-17 16:31:04 · 987 阅读 · 0 评论 -
spark整合hive后spark-sql启动报错
通过spark-sql 来访问hive的元数据,hive元数据信息存储在mysql但是启动的时候是报如下的错误,检查过配置,metastore已经配置,并且启动,用hive启动可以正常使用,但是spark-sql不行,报错信息Hive: Failed to access metastore. This class should not accessed in runtime.org.apac...原创 2019-12-14 18:24:05 · 2660 阅读 · 0 评论 -
一次测试环境问题记录
目录问题描述解决方法总结问题描述有三张表,A,B,C;其中c表有3百万条数据,a,b表没有数据,第一次,空表在前,大表在后,(常规的优化方案)写法insert into table d select * from a left bon xxx=xxx inner join c on ixxx=xxx;在spark-sql客户端执行,没有指定参数,相当于默认dri...原创 2019-12-12 14:50:18 · 268 阅读 · 0 评论 -
Spark SQL 之 Join 实现
在这篇文章中:SparkSQL总体流程介绍Join基本要素Join基本实现流程sort merge join实现broadcast join实现hash join实现inner joinleft outer joinright outer joinfull outer joinleft semi joinleft anti join总结文章写...转载 2020-02-29 17:04:48 · 195 阅读 · 0 评论 -
spark版本升级问题org.apache.spark.Logging
git下面有一个spark项目,用的版本是1.6.2,据说很稳定的一个版本,因为在2.0以后出来一个sparksession整合df和df 于是将spar库版本升到2.4.3,下面是遇到的问题1.升级后找不到org.apache.spark.Logging。 1.6.2中用的trait Logging 找不到org.apache.spark.Logging。 在spark2.4.3...原创 2019-12-01 22:21:33 · 2758 阅读 · 0 评论 -
spark项目scala版本依赖问题
今天从github上项目,运行一致报错,后来自己写了一个测试程序,竟然也是同样的错,最后发现竟然是scala版本不对 def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("AppConf").setMaster("local[4]") val sc=new SparkCont...原创 2019-12-01 17:06:07 · 2134 阅读 · 0 评论 -
spark源码阅读环境搭建
目录1.环境介绍2.源码编译2.1编译成功的流程3.编译中遇到的问题3.1 在命令行直接执行编译命令3.2 未知失败问题(重新执行后成功)3.3编译成功后本地启动spark-shell4.导入idear5.执行测试案例遇到的问题和解决方法5.1添加依赖5.2 idear执行测试命令1.环境介绍用spark源码2.4.3为例源码下载...原创 2019-11-30 12:55:35 · 496 阅读 · 0 评论