- 博客(41)
- 收藏
- 关注
原创 Hbase简介和快速入门
本文首先简单介绍了Hbase的定义,逻辑结构,物理存储结构;然后详细的介绍了Hbase的安装;最后简单介绍了Hbase的shell命令操作
2024-07-28 23:55:21
1317
原创 腾讯云搭建hadoop集群
本文主要介绍了在腾讯云中利用3台服务器搭建hadoop3.1.3集群环境,特别要注意在配置/etc/hosts的时候,当前节点内网ip和hostname映射,其余节点外网和对应的hostname映射
2023-08-13 00:04:37
336
原创 Kafka消费者
本文围绕Kafka消费者,首先介绍了Kafka的消费方式,然后介绍了Kafka消费者的工作流程,接着介绍了分区分配策略,接着又介绍了offset位移一级漏消费和重复消费问题,最后介绍了如何提高Kafka的吞吐量。
2023-07-31 15:18:36
177
原创 Kafka Broker
本文首先介绍了Kafka Broker的总体流程,然后介绍了Kafka的副本,接着介绍了文件存储,最后介绍了Kafka高效读写数据的原因
2023-07-30 20:21:41
127
原创 MySQL的B+树索引
本文主要介绍了MySQL的InnoDB索引,介绍了索引的相关内容,如B+树索引原理,聚簇索引和非聚簇索引,最左前缀原则,范围之后查询失效的原因以及索引下推的流程等
2023-07-24 23:57:39
345
原创 hvie列式存储ORC和parquet
本文首先介绍了行列存储的特点,然后分别的从文件格式的说明,建表语句,文件格式支持的参数分别介绍了列式存储ORC和Parquet。
2023-07-22 18:00:00
170
原创 mysql索引的基本介绍和索引失效的情况
本文首先介绍了什么是索引——索引其实是一种用来提高查询效率数据结构,结合索引的优缺点来根据实际情况选择创建索引;索引有单值索引,唯一索引,主键索引,复合索引;然后介绍了避免索引失效的情况,主要是破会了索引的有序性索引会失效。查询优化器判断全表扫描比使用索引+回表的效率高,优化器会放弃使用所用。对于查询列使用了运算也会时索引失效。
2023-07-07 23:56:32
252
原创 数仓之缓慢变化维处理方式
本文主要介绍了缓慢变化维的处理方式。在工作中,用到最多的就是每天全量快照和拉链表。本文详细介绍了2种方式具体sql实现过程以及它们的优缺点,在工作中结合实际业务,可以灵活选择
2023-07-06 00:23:02
794
原创 数据建模-维度模型
本文首先介绍了什么是维度模型,然后分别从维度模型的事实表和维度表展开详细的说明。对于怎么设计好事实表,列举了8条原则,接着又分别详细介绍了事实表的设计流程,包括事务型事实表,周期型快照事实表,累积型快照事实表,针对3者的优缺点在实际工作中要灵活选择;最后介绍了维度表,要特别注意维度表的设计要点。
2023-07-03 23:51:11
572
原创 数据仓库分层设计
本文首先介绍了什么是数据仓库,数据仓库有什么特点;然后介绍了如何才能设计出好的数据仓库,要基于的原则;接着介绍了数据仓库如何分层,每层的作用和意义,数据层次调用的原则;最后介绍了每层表的命名规范以及数据清洗的规范
2023-07-02 23:51:09
663
原创 Flink中处理函数(Process Function)
本文主要介绍了按键分区处理函数(KeyedProcessFunction)和窗口处理函数(ProcessWindowFunction)以及测输出流
2023-06-26 22:25:48
1091
原创 Flink中的时间语义和水位线(Watermark)
本文首先介绍了Flink中通常将事件时间作为时间语义,然后介绍了水位线的概念,其作用是保证之前的数据全部到齐,最后介绍了水位线和窗口的工作原理以及水位线的生产策略
2023-06-26 21:17:58
1007
2
原创 Flink作业提交流程
本文主要是介绍Flink的作业提交流程。在正式介绍作业提交流程之前,先介绍了2个主要角色,作业管理器(JobManager)和任务管理器(TaskManager),然后介绍了作业运行时几个核心概念,包括并行度,算子链,任务槽,任务槽和并行度的关系。最后介绍了Flink的作业提交流程,包括standalone会话模式作业提交流程和yarn应用模式作业提交流程,注意两者之间的区别,希望对大家有所帮助
2023-06-11 19:29:02
1535
原创 3、ElasticSearch的基本概念
ElasticSearch的基本概念3.1近实时(Near Realtime / NRT)Elasticsearch是一个近实时的搜索平台,从生成文档索引到文档成为可搜索,有一个轻微的延迟(通常是一秒钟)。3.2 集群(Cluster)ES 默认就是集群状态,整个集群是一份完整、互备的数据。集群是一个或多个节点(服务器)的集合。集群中的节点一起存储数据,对外提供搜索功能。集群由一个唯一的名称标识,该名称默认是“elasticsearch”。集群名称很重要,节点都是通过集群名称加入集群。集群不要重名,
2022-05-25 23:39:11
131
原创 2、ElasticSearch的特点
2、ElasticSearch的特点2.1 天然分片,天然集群ES把数据分成多个shard,下图中的P0-P2,多个shard可以组成一份完整的数据,这些shard可以分布在集群中的各个机器节点中。随着数据的不断增加,集群可以增加多个分片,把多个分片放到多个机子上,已达到负载均衡,横向扩展。在实际运算过程中,每个查询任务提交到某一个节点,该节点必须负责将数据进行整理汇聚,再返回给客户端,也就是一个简单的节点上进行Map计算,在一个固定的节点上进行Reduces得到最终结果向客户端返回。这种集群分片的
2022-05-25 18:14:02
263
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人