大数据
文章平均质量分 69
大数据相关技术分享,Spark,hive,hbase等等
一个数据小开发
阿里巴巴集团码农一枚~欢迎一起交流学习进步
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink On Hudi整个系列中可能遇到的问题
1、ERROR org.apache.hudi.sink.compact.CompactFunction [] - Executor executes action [Execute compaction for instant 20220331114224581 from task 0] errorERROR org.apache.hudi.sink.compact.CompactFunction [] - Executor execut...原创 2022-04-13 15:14:41 · 2581 阅读 · 0 评论 -
Flink CDC模式写入Hudi
1、前沿之前对数据湖的相关知识和怎么搭建都做了详细的讲解,感兴趣的可以去了解下数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi_一个数据小开发的博客-优快云博客从0到1搭建数据湖Hudi环境_一个数据小开发的博客-优快云博客接下来,就是Flink on Hudi的实战了,这一篇带来的CDC模式的入湖。2、实战2.1、启动本地环境export HADOOP_CLASSPATH=`$HADOOP_HOME/bin/hadoop classpat...原创 2022-04-13 14:48:43 · 2343 阅读 · 0 评论 -
Flink SQL Kafka写入Hudi详解
Flink读写Hudi案列详解原创 2022-04-13 14:30:10 · 4816 阅读 · 3 评论 -
从0到1搭建数据湖Hudi环境
一、目标在本地构建可以跑Flink-Hudi、Spark-Hudi等demo的环境,本地环境是arm64架构的M1芯片,所以比较特殊,如果采用Hudi官网的docker搭建,目前不支持,本人也在Hudi的github上提过此类需求,虽得到了响应,但还是在部署的时候会出问题,然后基于其实Hudi就是一种对存储格式的管理模式,此格式可以是HDFS,也可以是各大云厂商的文件存储系统,例如阿里云的OSS,华为云的OBS等,都是可以支持的,所以本地只需要部署一套Hadoop架构就可以跑起来相关的案...原创 2022-04-10 21:09:20 · 10906 阅读 · 5 评论 -
数据湖Hudi专栏系列带你深入了解不一样的大数据技术
1、数据湖是什么?能干什么?为啥是数据湖?2、从0到1本地搭建数据湖环境3、数据湖典型应用,Flink实时流写入数据湖,spark读取数据湖里的数据。我即将分如上三个模块进行详细的讲解。此专栏摒弃数据湖官方的docker demo,自己在本地根据实际情况进行的环境搭建,因为当下随之发展越来越多的人开始使用M1芯片的arm64架构的电脑系统。...原创 2022-03-31 20:57:42 · 2023 阅读 · 2 评论 -
Mac安装brew
mac电脑上类似于centos服务器上的yum源安装程序的方法原创 2022-02-25 16:22:03 · 1231 阅读 · 0 评论 -
Flink查询关联Hbase输出
1、前言大家在开发Flink的时候,很多时候会把某些固定的维度信息存储在Hbase或者Redis等这些第三方库里,已方便来跟流发生关联查询输出。本文将从如何本地搭建一个Hbase环境开始讲起,到如何构建一个Hbase公共调用类,到如何构建一个异步调用Hbase的公共代码,再到最后实际调用代码后的输出。2、本地利用Docker搭建HBase环境本地如何搭建Docker环境,之前一篇博客中已经详细描述过,大家如果想学习如何搭建,可以去看下,地址如下:Docker入门-Windows 10&.原创 2022-02-24 18:47:50 · 5685 阅读 · 7 评论 -
Flink CEP结合案例详解
1、介绍FlinkCEP是在Flink之上实现的复杂事件处理(CEP)库。它允许您在无穷无尽的事件流中检测事件模式,使您有机会掌握数据中重要的内容。通常会用来做一些用户操作APP的日志风控策略等多种复杂事件,下面详细以用户连续10s内登陆失败超过3次告警为需求,进行全面讲解。1.1、整体需求数据详解图...原创 2022-02-19 00:11:56 · 3217 阅读 · 1 评论 -
Flink利用KafkaSource读取Kafka数据做为数据源
虎年第一篇:在Flink的1.13版本以后,官方对FlinkKafkaConsumer类进行了过期设置,所以最好用KafkaSource来进行读取数据。pom文件<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.12</artifactId> <version>1.14.3</version>原创 2022-02-07 18:38:51 · 9578 阅读 · 3 评论 -
如何让Flink CDC的结果输出的更优雅一点?
上一篇博客中,我们提到了如何去通过StreamAPI访问Flink CDC的结果,但是往往很多时候,访问出来的结果都很难被下游直接使用,还需要做很多String类型的数据处理,这里就单独开一篇博客来讲讲如何,在读的时候,一次性做到数据根据我们的需要去展示,也就是展示的更加简洁优雅一点。不跟你多BB,直接上源代码,有疑问的可以评论区交流,感谢。import com.alibaba.fastjson.JSONObject;import com.alibaba.ververica.cdc.debezi原创 2022-01-02 14:42:45 · 1673 阅读 · 0 评论 -
关于Spark数据倾斜调优看这一篇就够了
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。 原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,是我们写原创 2021-12-29 20:32:18 · 1105 阅读 · 2 评论 -
Flink写入Hbase
1、在构建实时数仓的时候,通常会把dim层的数据存入hbase,这样做的好处一个是利用hbase的幂等性的功能,维度表基本上都会有数据唯一性,第二个在实时性要求的场景下,可以做数据点查关联,效率上得到一定的保障。部分sink代码如下:private transient Connection hbaseConnection; private transient Connection hbaseConnection; private Admin hbaseAdmin; p原创 2021-12-29 15:29:33 · 3725 阅读 · 0 评论 -
Flink CDC 读取MySQL的数据
1、前提背景准备Flink在1.11之后就已经支持从MySQL增量读取Binlog日志的方式。pom文件如下:<properties> <scala.binary.version>2.11</scala.binary.version> <scala.version>2.11.12</scala.version> <flink.version>1.12.0</flink.version>原创 2021-12-24 17:58:23 · 13564 阅读 · 10 评论 -
Spark跨集群读取HDFS文件
大家平时可能都是在本集群上读取本地的HDFS文件,那如果我有两套集群呢?这个时候该如何读取另外一套集群上面的HDFS文件呢?废话不多说,直接上代码,如果代码有关于一些nameservices等这些信息不知道去哪里看的人,可以翻翻我之前的博客,或者私信我。原创 2021-12-21 11:51:38 · 3332 阅读 · 0 评论 -
Impala SQL on Kudu优化(二)
1、前言 上一篇 Impala SQL on Kudu优化谈到了如何从执行计划的角度来优化查询SQL,感兴趣的同学可以去回看关注下(Impala SQL on Kudu优化(一)_一个数据小开发的博客-优快云博客),本篇优化将主要从建表层面来谈谈优化。2、概念&理念...原创 2021-09-23 19:45:29 · 814 阅读 · 1 评论 -
Spark Dataset<Row>写入Elasticsearch实战
1、前言Spark操作数据写入es,可以参考官方案例来操作Apache Spark support | Elasticsearch for Apache Hadoop [7.14] | Elastic本博客,讲挑选其中的一种方法进行讲解。2、方法JavaEsSpark类中,提供了四大类方法把数据写入到es中。def saveToEs(jrdd: JavaRDD[_], resource: String) = EsSpark.saveToEs(jrdd.rdd, resource原创 2021-09-22 19:42:28 · 1372 阅读 · 2 评论 -
Hive Metastore详解大全
1、何为Hive MetaStore?原创 2021-08-12 09:25:15 · 17375 阅读 · 5 评论 -
Hive常用函数大全一览
1、关系运算1、等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE hive> select 1 from iteblog where 1=1; 1 2、不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相等,则为TRUE;否则为FALSE hive>转载 2021-08-10 15:58:07 · 1982 阅读 · 0 评论 -
hive如何把时分秒时间变成15分钟切片时间
利用现有的函数即可,lpad(string str, int len, string pad) 将字符串str 用pad进行左补足 到len位(如果位数不足的话)rpad(string str, int len, string pad) 将字符串str 用pad进行右补足 到len位(如果位数不足的话)select concat('20210731',lpad(hour('2021-07-31 09:07:01'),2,'0'),rpad(15*floor(minute('2021.原创 2021-08-10 14:17:09 · 1918 阅读 · 0 评论 -
Spark中的UDTF
1、介绍之前的文章中讲到过如何编写Spark的UDF函数之前的文章如下:https://blog.youkuaiyun.com/Aaron_ch/article/details/113346185那么何为UDTF呢??又如何在Spark中使用UDTF呢??1.1、何为UDTF其实做过大数据的,熟悉Hive小伙伴一定知道,Hive中也有很多常用官方UDTF,explodejson_tupleget_splits等等。就是把一行数据,转换为多行多列。简单来讲如下:输入 {"test原创 2021-05-19 23:23:30 · 2199 阅读 · 9 评论 -
浅谈Spark中的宽依赖和窄依赖
1、何为Spark中的宽依赖和窄依赖1.1、官方源码解释1.1.1、NarrowDependency(窄依赖)/** * :: DeveloperApi :: * Base class for dependencies where each partition of the child RDD depends on a small number * of partitions of the parent RDD. Narrow dependencies allow for pipelin原创 2021-04-28 00:45:29 · 2518 阅读 · 0 评论 -
Spark RDD的flatMap、mapToPair、reduceByKey三个算子详解
1、官方解释1.1、flatMap<U>JavaRDD<U>flatMap(FlatMapFunction<T,U>f)Return a new RDD by first applying a function to all elements of this RDD, and then flattening the results.Parameters:f- (undocumented)Returns:(undocumented)...原创 2021-04-24 23:02:52 · 1939 阅读 · 2 评论 -
如何利用Java编写Spark
来我的Spark专栏:https://blog.youkuaiyun.com/aaron_ch/category_10777950.html一起学习进步怎么用Java编写Spark并本地调试原创 2021-03-27 22:46:14 · 393 阅读 · 0 评论 -
Maven项目中得jar包依赖解析树命令
cmd命令行切换到项目得根目录下,例如:然后执行如下命令:mvn dependency:tree结果如下图所示:原创 2021-03-01 19:47:00 · 424 阅读 · 1 评论 -
Spark使用Java编写UDF函数
如下图查看Spark源码一共有23中UDF函数他们之间最大的区别就是传参数的个数问题的区别UDF1函数源码如下:public interface UDF1<T1, R> extends Serializable { R call(T1 var1) throws Exception;}UDF2函数源码如下:public interface UDF2<T1, T2, R> extends Serializable { R call(T1 va原创 2021-01-28 20:16:26 · 2535 阅读 · 0 评论 -
Spark之窗口函数WindowSpec中的row_number()
Spark的窗口函数WindowSpec之Java语言实现代码如下import org.apache.spark.sql.expressions.WindowSpec;import org.apache.spark.sql.expressions.Window;import org.apache.spark.sql.functions;WindowSpec windowSpec = Window.partitionBy("colName1").orderBy(functions.desc("c原创 2021-02-16 22:14:11 · 978 阅读 · 0 评论 -
Hive中的left semi join和left anti join
select * from h_test_01;select * from h_test_02;SELECT *FROM h_test_01 a LEFT semiJOIN h_test_02 b ON a.uuid = b.uuid;原创 2021-01-28 23:52:18 · 11439 阅读 · 4 评论
分享