- 博客(11)
- 收藏
- 关注
原创 Hudi搭建与使用
Hudi Flink 还提供了获取自给定提交时间戳以来更改的记录流的功能。这可以使用 Hudi 的流式查询并提供需要流式传输更改的开始时间来实现。如果我们想要在给定的提交之后进行所有更改(通常情况下),我们不需要指定 endTime。Hudi 还提供了获取自给定提交时间戳以来更改的记录流的功能。这可以使用 Hudi 的增量查询并提供需要流式传输更改的开始时间来实现。具体时间可以通过将 endTime 指向特定提交时间并将 beginTime 指向“000”(表示最早可能的提交时间)来表示。
2023-02-08 15:53:29
650
1
原创 Phoenix安装及使用
Phoenix安装及使用1.背景介绍1.1Phoenix定义Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。1.2Phoenix特点容易集成:如Spark,Hive,Pig,Flume和Map Reduce。性能好:直接使用HBase API以及协处理器和自定义过滤器,可以为小型查询提供毫秒级的性能,或者为数千万行提供数秒的性能。操作简单:DML命令以及通过DDL命令创建表和版本化增量更改。
2021-10-19 17:02:21
2122
2
原创 Flume
一、Flume概述1.Flume定义 1)Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。 2)Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。2.Flume基础框架[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d13rROuG-1616656292125)(C:\Users\86152\AppData\Roaming\Ty
2021-10-19 16:39:28
219
原创 Kafka
Kafka第1章 Kafka概述1.1定义 Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。1.2两种消息队列(1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 消息生产者生产消息发送到Queue中,然后消息消费者从Queue中取出并且消费消息。 消息被消费以后,queue中不再有存储,所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者,但是对一个消息而言,只会有一个消费者可以消费。
2021-03-29 20:58:58
122
原创 Zookeeper
一、Zookeeper原理及使用1.概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应Zookeeper = 文件系统 + 通知机制2.特点1)Zookeeper:一个领导者(Leader),多个跟随者(F
2021-03-25 16:15:41
212
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人