- 博客(7)
- 收藏
- 关注
原创 Kafka3.2.0 + kraft集群安装部署说明
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是
2022-12-28 17:55:58
976
原创 Alluxio安装部署
Alluxio 是世界上第一个虚拟的分布式存储系统,以内存速度统一了数据访问。它为计算框架和存储系统构建了桥梁,使应用程序能够通过一个公共接口连接到许多存储系统。Alluxio以内存为中心的架构使得数据的访问速度能比现有方案快几个数量级。简单来说,Alluxio是一个分布式文件系统,是数据驱动框架或应用如Apache Spark、Presto、Tensorflow、Apache HBase、Apache Hive 或 Apache。
2022-11-11 16:40:24
2409
1
原创 Trino安装部署连接iceberg
*一、Trino介绍**Trino是针对OLAP设计的用于高效的分布式查询大量数据的分析引擎。Trino的架构如下图所示。由一个coordinator和多个worker节点组成的Trino集群。Trino用户通过一个客户端连接到coordinator。coordinator与访问数据源的worker进行协作。一旦它接收到一条SQL语句,协调器就负责跨Trino工作节点解析、分析、计划和调度查询执行。该语句被转换为运行在一组worker上的一系列连接的任务。
2022-11-03 14:28:16
1830
3
原创 FlinkCDC同步Sqlserver、Oracle数据到iceberg
CDC的核心思想是:监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。三、创建source表(注意:先不要执行"use catalog")二、开启Flink客户端。五、创建iceberg表。一、开启Flink服务。
2022-11-03 11:10:48
2447
3
原创 全网最全hive操作
**安装mysql**安装hive**往表中存数据****分区****排序**分桶及抽样查询**hive函数****小记数据库操作**
2021-05-24 16:49:03
83
原创 Linux命令与shell编程大全
*** 命令***mkdir 创建目录 mkdir -p(递归式去创建嵌套目录)rmdir 删除空目录cp -r 将已有目录复制到另一目录下cat(more) 查看文件下内容touch 创建文件rm -f 强制删除文件rm -r 递归删除mv 剪切echo ...
2020-12-07 10:14:41
227
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人