
spark
文章平均质量分 76
leezsj
这个作者很懒,什么都没留下…
展开
-
sparksql报错
Exception in thread "main" org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:Exchange hashpartitioning(subject#6, 200)+- *HashAggregate(keys=[subject#6, name#7], functions=[count(1)], output=[subject#6, name#7, c#12L]) +- E..原创 2021-08-18 10:16:06 · 1091 阅读 · 0 评论 -
spark报错
Error while instantiating 'org.apache.spark.sql.internal.SessionStateBuilder':Caused by: org.apache.spark.SparkException: Unable to create database default as failed to create its directory /user/hive/warehouseCaused by: org.apache.hadoop.se...原创 2021-08-18 09:49:59 · 236 阅读 · 0 评论 -
sparksql
sparksql介绍sparksql是spark用来处理结构化数据的一个模板,他提供了要给编程抽象叫做dataframe并且作为分布式sql查询引擎的作用sparksql将sparksql转化为rdd,然后提交到集群执行,执行效率快hive的应用其实是对应不会写java的开发人员,但是会写sql的数据库提供的是mr的一种简化sparksql其实是对之前学习的sparkcore中rdd的一种简化,用sql的语言可以对rdd编程进行开发spark是有处理上限的,10PB,超过这个范围还是原创 2021-08-13 16:29:35 · 401 阅读 · 0 评论 -
spark源码
sparkcontext初始化的流程-sparkConf对象,也就是spark的配置对象,用来描述spark的配置信息,主要是以键值对的形式加载配置信息-一旦通过newsparkconf()完成了对象的实例化,会默认加载spark.*配置文件class SparkConf(loadDefaults:Boolean){ def this()=this(true)}注意事项-SparkContext对象的实例化,需要一个sparkconf对象作为参数,-在sparkcontext.原创 2021-08-13 10:12:13 · 741 阅读 · 0 评论 -
spark05
自定义排序spark中对简单的数据类型可以直接排序,但是对于一些复杂的条件加以利用自定义排序实现键值对rdd数据分区spark目前支持hash分区和range分区,用户也可以自定义分区,hash分区为当前的默认分区,spark中分区器直接决定了rdd中分区的个数,rdd中每条数据经过shuffle过程属于那个分区和reduce的个数hashpartitionerspark中非常重要的一个分区器,也是默认分区器,默认用于90%以上的rdd相关api上功能:依据rdd中的key值的has原创 2021-08-10 17:59:32 · 171 阅读 · 0 评论 -
spark04
rdd的函数传递主要是序列化的问题,对象在jvm中表示的方式是字节,序列化的产生是为了分布式 的程序,现在需要传递给另一个机器,那么传递的过程中需要的是010101这样的字节,那么对面接收的字节如何获取,那么就需要使用序列化spark是一个分布式计算框架,从driver端将数据传递到executor的时候就需要进行序列化,总结:1如果drr转换操作中使用到了class的方法或者变量,那么该class需要支持序列化,2如果通过局部变量的方式将class中的白能量赋值为局部变量,那么不需原创 2021-08-10 16:11:49 · 113 阅读 · 0 评论 -
spark03
action算子和其他算子reducedef reduce(f:(T,T)=>T):T通过传入的函数进行聚合,先分区内聚合,再分区间聚合foldfold和reduce的原理相同,但是与reduce不同,相当与每个redcue时迭代器去的第一个元素是zeroValueaggregate参数:(zeroValue:U)(seqOp:(U,T)=>U,combOp:(U,U)=>U)aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后原创 2021-08-10 14:05:08 · 92 阅读 · 0 评论 -
spark01
Spark回顾hadoopapache Hadoop软件库是一个允许使用简单的编程模型夸计算机集群处理大型数据集合的框架,设计初衷是将单个服务器扩展成上千个计算机组成一个集群为大数据提供计算服务,每个计算机都提供了本地计算和储存服务hadoop中的优缺点高可靠性:Hadoop按位存储和处理数据的能力,值得人们的信赖高扩展型:Hadoop是在可用的计算机集簇间分配数据并完成计算任务,这些集簇可以方便地扩展到数以千计的节点中.高效性:Hadoop能够存在节点间动态的移动数据,并保证各个节原创 2021-08-09 16:35:24 · 139 阅读 · 0 评论