ClickHouse使用分析

本文详细介绍了ClickHouse的安装与使用,包括单机快速下载、安装包安装和可视化工具的使用。重点讨论了ClickHouse的核心特性,如列式存储、向量化引擎和OLAP支持,适合大数据分析的场景。此外,文章还探讨了ClickHouse的数据结构,如分区、索引和数据压缩,并列举了一些常用的SQL操作。最后,对ClickHouse的性能进行了分析,展示了不同数据量下的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1.安装与使用

1.1 单机快速下载

1.2 使用安装包

1.3 可视化工具

2.核心特性与适用场景

2.1 OLAP

2.2 列式数据库

2.3 向量化引擎

2.4 其他特性

2.5 ClickHouse适用的场景

2.6 ClickHouse不适用的场景

3.数据结构

3.1 文件结构

3.2 分区

3.3 列式存储与数据压缩

3.4 索引

    3.4.1 一级索引

    3.4.2 二级索引

3.5 数据标记

3.6 结构优势

3.7 其他引擎

3.8 常用sql

SELECT

SAMPLE

JOIN

聚合函数

4.性能分析


1.安装与使用

1.1 单机快速下载

curl https://clickhouse.com/ | sh

会根据系统下载一个四百多M大小的可执行文件,然后通过以下命令进行启动

启动服务

./clickhouse server

启动客户端

./clickhouse client

这种方法不会生成全局可执行文件,也没有users.xml配置文件

1.2 使用安装包

官网为不同系统都提供了安装包,在官网找到适合的安装包即可下载,我们的linux服务器可以下载rpm或者tgz的安装包

安装包有四个文件

  • clickhouse-common-static — ClickHouse编译的二进制文件。
  • clickhouse-server — 创建clickhouse-server软连接,并安装默认配置服务
  • clickhouse-client — 创建clickhouse-client客户端工具软连接,并安装客户端配置文件。
  • clickhouse-common-static-dbg — 带有调试信息的ClickHouse二进制文件。

全部下载解压执行文件中的安装脚本。

也可以使用yum命令进行安装

yum install -y yum-utils

yum-config-manager --add-repo https://packages.clickhouse.com/rpm/clickhouse.repo

yum install -y clickhouse-server clickhouse-client

/etc/init.d/clickhouse-server start //运行服务器

clickhouse-client //运行客户端

安装后的相关目录

#  命令目录

/usr/bin

ll |grep clickhouse

-------------------------------------------

# 配置文件目录

cd /etc/clickhouse-server/

-------------------------------------------

# 日志目录

cd /var/log/clickhouse-server/

-------------------------------------------

# 数据文件目录

cd /var/lib/clickhouse/

-------------------------------------------

在配置文件目录下有config.xml和users.xml

config.xml可以配置服务器相关配置

users.xml可以配置用户权限

总体来说安装非常简单

1.3 可视化工具

通过clickhouse client可以执行sql,也可以使用可视化工具DBeaver,下载地址DBeaver Community | Free Universal Database Tool

idea也可以连接clickhouse

2.核心特性与适用场景

  ClickHouse是一款MPP(大规模并行处理)架构的列式存储数据库,其具有ROLAP、在线实时查询、完整的DBMS、列式存储、不需要任何数据预处理、支持批量更新、拥有非常完善的SQL支持和函数、支持高可用、不依赖Hadoop复杂生态、开箱即用等许多特点。

2.1 OLAP

OLAP名为联机分析,它指的是通过多种不同的维度审视数据,进行深层次分析。

有几种分类,大致分为ROLAP(Relational OLAP,关系型OLAP),

第二类架构称为MOLAP(Multidimensional OLAP,多维型OLAP) ,

其核心思想是借助预先聚合结果,使用空间换取时间的形式最终提升查询性能,

第三类架构称为HOLAP(Hybrid OLAP,混合架构的OLAP)是ROLAP和MOLAP两者的集成。

ClickHouse就是既使用ROLAP模型,同时又拥有比肩MOLAP的性能。

2.2 列式数据库

列式存储和数据压缩,对于一款高性能数据库来说是必不可少的特性。想让查询变得更快,最简单且有效的方法是减少数据扫描范围和数据传输时的大小,而列式存储和数据压缩就可以帮助我们实现上述两点。按列存储与按行存储相比,前者可以有效减少查询时所需扫描的数据量。这里有官网的示例图片,可以更直观的理解这两种方式对于OLAP场景的差异。

Row oriented

   

ClickHouse是一种高效的分布式列存数据库,专门用于快速数据分析。通过使用ClickHouse,用户可以快速地对大量数据进行查询和分析,并实时生成可视化报表。 ClickHouse具有以下特点: 1. 高性能:ClickHouse是为处理大规模数据而设计的,能够在秒级甚至毫秒级的时间内执行复杂查询。它使用了列存储和数据压缩技术,以实现高效的数据读取和查询。 2. 分布式架构:ClickHouse支持分布式部署,可以在多个服务器节点上运行并处理大数据量。这种架构允许用户通过并行计算来加速查询处理速度。 3. 强大的查询功能:ClickHouse支持SQL查询语言和丰富的聚合函数,允许用户执行各种复杂的数据分析操作,如过滤、排序、分组和连接等。 4. 实时数据处理:ClickHouse支持实时数据导入和查询,可以处理实时生成的数据流。这使得用户可以实时地分析和监控数据,及时做出决策。 5. 可扩展性:ClickHouse可以根据数据规模的增长进行水平扩展。用户可以随时增加新的服务器节点,以满足不断增长的数据存储和处理需求。 在数据分析方面,ClickHouse可以用于各种应用场景,如日志分析、大数据统计、用户行为分析等。通过使用ClickHouse,用户可以迅速获得有关数据的深入洞察,并通过生成可视化报表来更好地理解和展示数据。同时,其高性能和可扩展性使得ClickHouse成为处理大规模数据分析的理想选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我扶奶奶过哈登

您的鼓励是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值