  -优快云博客

原创湖仓一体介绍及spark操作hudi

湖仓一体介绍及spark操作hudi

2023-02-08 16:25:19 1380 1

原创 Flink-Yarn安装及使用

在YARN平台上Flink是如何集成部署的

2023-02-08 16:05:13 1324

Hudi Flink 还提供了获取自给定提交时间戳以来更改的记录流的功能。这可以使用 Hudi 的流式查询并提供需要流式传输更改的开始时间来实现。如果我们想要在给定的提交之后进行所有更改（通常情况下），我们不需要指定 endTime。Hudi 还提供了获取自给定提交时间戳以来更改的记录流的功能。这可以使用 Hudi 的增量查询并提供需要流式传输更改的开始时间来实现。具体时间可以通过将 endTime 指向特定提交时间并将 beginTime 指向“000”（表示最早可能的提交时间）来表示。

2023-02-08 15:53:29 650 1

原创 Hbase常用命令

Hbase常用命令

2023-02-08 14:49:39 229 1

原创 kafka常用命令

kafka命令

2023-02-08 14:08:06 1435

原创 Phoenix安装及使用

Phoenix安装及使用1.背景介绍1.1Phoenix定义Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表，插入数据和查询HBase数据。1.2Phoenix特点容易集成：如Spark，Hive，Pig，Flume和Map Reduce。性能好：直接使用HBase API以及协处理器和自定义过滤器，可以为小型查询提供毫秒级的性能，或者为数千万行提供数秒的性能。操作简单：DML命令以及通过DDL命令创建表和版本化增量更改。

2021-10-19 17:02:21 2122 2

原创 Flume

一、Flume概述1.Flume定义 1）Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。 2）Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS。2.Flume基础框架[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d13rROuG-1616656292125)(C:\Users\86152\AppData\Roaming\Ty

2021-10-19 16:39:28 219

原创 Kafka

Kafka第1章 Kafka概述1.1定义 Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。1.2两种消息队列(1)点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）消息生产者生产消息发送到Queue中，然后消息消费者从Queue中取出并且消费消息。消息被消费以后，queue中不再有存储，所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者，但是对一个消息而言，只会有一个消费者可以消费。

2021-03-29 20:58:58 122

原创 Zookeeper

一、Zookeeper原理及使用1.概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解，是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生了变化，Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应Zookeeper = 文件系统 + 通知机制2.特点1）Zookeeper：一个领导者（Leader），多个跟随者（F

2021-03-25 16:15:41 212 1

chenlei0520的博客