
spark
cherish-zp
A man seeking for wisdom .
展开
-
spark 自定义数据源
1、创建hbase数据源表 node1> bin/hbase shell create 'spark_hbase_sql','cf' put 'spark_hbase_sql','0001','cf:name','zhangsan' put 'spark_hbase_sql','0001','cf:score','80' put 'spark_hbase_sql','0002','cf:n...原创 2020-04-28 10:05:57 · 1401 阅读 · 1 评论 -
hive 自定义 udf udtf 函数
hive 自定义UDF 函数 package com.atguigu.udf; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONObject; import org.apache.hadoop.hive.ql.exec.UDF; /** * @author cherish * @create 2020-0...原创 2020-04-20 18:09:58 · 242 阅读 · 0 评论 -
spark的map和mapPartitions
1、map是对数据1对1的遍历,传输效率相对比较差,相比起mapPartitions不会出现内存溢出 2、mapPartitions 对一个rdd里所有分区遍历 效率优于map算子,减少了发送到执行器执行的交互次数,mapPartitions是批量将分区数据一次发送 但是执行器内存不够的则可能会出现内存溢出(OOM) 假设有N个元素,有M个分区,那么map的函数的将被...原创 2020-04-12 21:30:10 · 337 阅读 · 0 评论 -
spark 累加器 ,共享变量
spark中 3大数据结构 RDD : (弹性分布,分布式数据集) 广播变量 : 分布式的 只读共享变量 累加器 : 分布式的只写共享变量 在某些情况下用rdd计算不是很好,所以有了 广播变量和累加器 例: val ints: RDD[Int] = spark.sparkContext.makeRDD(Array(1, 2, 3, 4), 2) ...原创 2020-04-10 10:58:32 · 200 阅读 · 0 评论