
大数据
cherish-zp
A man seeking for wisdom .
展开
-
spark 自定义数据源
1、创建hbase数据源表node1> bin/hbase shellcreate 'spark_hbase_sql','cf'put 'spark_hbase_sql','0001','cf:name','zhangsan'put 'spark_hbase_sql','0001','cf:score','80'put 'spark_hbase_sql','0002','cf:n...原创 2020-04-28 10:05:57 · 1401 阅读 · 1 评论 -
hive 自定义 udf udtf 函数
hive 自定义UDF 函数package com.atguigu.udf;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import org.apache.hadoop.hive.ql.exec.UDF;/** * @author cherish * @create 2020-0...原创 2020-04-20 18:09:58 · 242 阅读 · 0 评论 -
spark 累加器 ,共享变量
spark中 3大数据结构RDD : (弹性分布,分布式数据集)广播变量 : 分布式的 只读共享变量累加器 : 分布式的只写共享变量 在某些情况下用rdd计算不是很好,所以有了 广播变量和累加器 例: val ints: RDD[Int] = spark.sparkContext.makeRDD(Array(1, 2, 3, 4), 2) ...原创 2020-04-10 10:58:32 · 200 阅读 · 0 评论 -
Scala中的集合排序
Scala中的集合排序在scala中,排序不再像java中的那么复杂,除了Map之外,其他的集合类型都可以使用自己的排序方法,排序方法主要有三个:1、sorted2、sortWith3、sortBy4、如果是任何类型调用上述三中方法时候都不会对源数据进行修改,而是返回一个新的集合。但是如果是使用的数组,那么可以使用scala.util.Sorting包中的排序方法来对源数据修改,并且不会返回新的数...原创 2020-03-28 11:32:10 · 802 阅读 · 0 评论 -
flume 1.8 详解
Flume日志采集框架一、准备安装好对应版本的hadoop集群二、主题本堂课主要围绕flume的知识点进行讲解。主要包括以下几个方面flume的核心概念flume的应用场景flume的安装部署flume的企业案例三、目标掌握flume的应用场景掌握flume中常用的source、channel、sink使用掌握flume的企业案例四、知识要点1. Flume...原创 2019-09-01 20:21:12 · 497 阅读 · 0 评论