
大数据架构
文章平均质量分 95
大数据架构组件学习,包括:
Hadoop
Spark
Flink
好奇的小黑
以梦为马,不负韶华。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Clickhouse MergeTree引擎原理[读书笔记]
文章目录概述创建&使用文件结构目录结构分区分区目录结构分区合并的过程索引一级索引二级索引压缩数据块文件块的结构Block合并的判断依据数据标记执行过程写入过程查询过程MergeTree派生引擎单副本派生引擎多副本派生引擎其他引擎概述Clickhouse作为一个数据库,主要用于管理数据的结构化存储,优化查询等操作。对于引擎的知识点,需要搞明白:创建方式,使用方式数据存储结构数据查询原理ClickHouse拥有非常庞大的表引擎体系,主要包括6大类:MergeTree家族、外部存储、原创 2021-07-26 17:06:56 · 304 阅读 · 0 评论 -
Hive 事务表(ACID)问题梳理
问题描述工作中需要使用pyspark读取Hive中的数据,但是发现可以获取metastore,外部表的数据可以读取,内部表数据有些表报错信息是:AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table tb_name. Your client does not appear to support insert-only tables. To skip capability che原创 2021-07-19 15:59:54 · 6173 阅读 · 0 评论 -
Clickhouse副本备份机制
思路核心概念:分片副本集群分布式表实现方法:复制表:引擎前缀是Replicated的表,可以由引擎自动实现底层复制功能。分布式表:使用Distributed引擎,原理类似于视图性质。需要先在各个实例中创建物理表,再关联映射到实际物理表。配置方法配置clickhouse的zk属性配置clickhouse集群配置分片{shard}等参数概念分片:将数据切分为多个部分,各个部分之间没有重复内容。需要注意的是:数据倾斜副本:副本是冗余,多备份,相同副本分片的内容完全一样。原创 2021-07-08 15:12:09 · 1252 阅读 · 0 评论 -
Ambari离线安装笔记
离线Ambari安装目录文章目录离线Ambari安装目录简介安装步骤准备基础环境修改Hostname配置hosts配置免密登录生成私钥配置信任主机安装JDK卸载OpenJDK(非必须)安装Oracle JDK挂载硬盘[非必须]挂载硬盘设置开机自启安装httpd安装启动服务设置开机自启关闭防火墙时钟同步服务[非必须]查看时钟状态服务准备Mysql[非必须]安装Mysql配置root权限密码安装Ambari准备Ambari离线源安装包解压缩本地yum源配置配置yum源文件分配到各个节点创建本地库查看yum源原创 2020-11-12 11:05:30 · 676 阅读 · 0 评论 -
[Hive]动态分区笔记
动态分区的作用分区类型主要用于根据select查询字段内容,动态分配至对应分区内。动态分区种类动态分区:所有分区内容均由查询的字段内容决定;静态分区:所有分区名称都已经确定;半动态分区:指定分区中,有部分是可变,部分固定。使用样例-- 以pt为分区的表create table test(col string)partitioned by (pt_1 string,pt_2 string);-- 根据col_2字段内容分发到指定的分区内insert into table t原创 2020-07-09 22:07:54 · 249 阅读 · 0 评论