大数据
cherish-zp
A man seeking for wisdom .
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive 自定义 udf udtf 函数
hive 自定义UDF 函数 package com.atguigu.udf; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONObject; import org.apache.hadoop.hive.ql.exec.UDF; /** * @author cherish * @create 2020-0...原创 2020-04-20 18:09:58 · 275 阅读 · 0 评论 -
spark 累加器 ,共享变量
spark中 3大数据结构 RDD : (弹性分布,分布式数据集) 广播变量 : 分布式的 只读共享变量 累加器 : 分布式的只写共享变量 在某些情况下用rdd计算不是很好,所以有了 广播变量和累加器 例: val ints: RDD[Int] = spark.sparkContext.makeRDD(Array(1, 2, 3, 4), 2) ...原创 2020-04-10 10:58:32 · 230 阅读 · 0 评论 -
Scala中的集合排序
Scala中的集合排序在scala中,排序不再像java中的那么复杂,除了Map之外,其他的集合类型都可以使用自己的排序方法,排序方法主要有三个:1、sorted2、sortWith3、sortBy4、如果是任何类型调用上述三中方法时候都不会对源数据进行修改,而是返回一个新的集合。但是如果是使用的数组,那么可以使用scala.util.Sorting包中的排序方法来对源数据修改,并且不会返回新的数...原创 2020-03-28 11:32:10 · 845 阅读 · 0 评论 -
flume 1.8 详解
Flume日志采集框架 一、准备 安装好对应版本的hadoop集群 二、主题 本堂课主要围绕flume的知识点进行讲解。主要包括以下几个方面 flume的核心概念 flume的应用场景 flume的安装部署 flume的企业案例 三、目标 掌握flume的应用场景 掌握flume中常用的source、channel、sink使用 掌握flume的企业案例 四、知识要点 1. Flume...原创 2019-09-01 20:21:12 · 532 阅读 · 0 评论
分享