ClickHouse教程 — 第二章 ClickHouse快速入门

  • 不支持事务(这其实也是大部分OLAP数据库的缺点)。
  • 稀疏索引使得它不适合通过主键进行单行的查询。所以它不适用于需要快速查询单行数据的应用场景。
  • 缺少高频率、低延迟的修改或删除已存在数据的能力。它仅能用于批量删除或修改数据。

Clickhouse并不能取代关系型数据,也不是为了处理事务性数据而开发的,Clickhouse更多的是作为OLTP(在线事务处理过程)数据库补充,方便用来进行数据分析。如果需要对数据进行更新和删除,或者需要进行多表关联,那么通常不推荐使用Clickhouse

1.2 为什么MySQL不使用列式存储?

  • 分页友好,且可以将数据都放到叶子节点,便于范围查询。
  • MySQL数据更新方便,这对列式存储是硬伤,所以很多OLAP数据库不支持更新,或者用复杂的方式支持更新。
  • 事务型数据库的主要性能瓶颈是I/O,更新一行数据,列式存储需要进行多次I/O,但是行式少数几次就够了。

1.3 clickhouse查询优化可以从哪几方面考虑去做?

  1. 表设计优化
    • 数据布局:ClickHouse使用MergeTree引擎,考虑到数据的物理布局对查询性能的影响很大。合理设计表的主键、索引和分区,以最大程度地减少查询时需要扫描的数据量。
    • 数据类型选择:使用合适的数据类型来减小存储空间,例如使用FixedString而不是String,使用Int32而不是Int64,等等。
  2. 索引的使用
    • ClickHouse支持索引,但在大多数情况下,索引的维护成本可能比查询性能提升的效果更显著。仅在特定场景下考虑使用索引,例如在OLAP场景中对少量数据进行快速查找。
  3. 分区和合并
    • 合理使用分区可以加速数据的查询,特别是在只关心某个时间范围的查询中。点击房子可以通过按时间分区来进行数据分割。
    • 合并和优化MergeTree引擎的操作,定期进行优化,以删除过期的数据、合并分区等。
  4. 使用样本数据
    • 对于大数据集,可以考虑使用样本数据进行查询优化。ClickHouse提供了SAMPLE关键字,可以在查询中使用部分数据进行测试和优化。
  5. 使用合适的引擎
    • ClickHouse提供了多个引擎,每个引擎都有其适用的场景。了解并选择适合你的使用场景的引擎,例如MergeTree适用于时间序列数据,而Distributed适用于分布式查询。
  6. 配置调优
    • 调整ClickHouse的配置文件,根据硬件资源和查询负载进行调优。例如,调整max_threads、max_memory_usage等参数,以充分利用系统资源。
  7. 并行查询和异步执行
    • ClickHouse支持并行查询和异步执行。合理设置并行度,通过异步执行降低查询的等待时间。
  8. 使用合适的查询语法
    • 了解ClickHouse查询语法的最佳实践,使用合适的技巧和语法结构。避免不必要的子查询和复杂的查询结构。
  9. 系统监控和性能分析
    • 使用ClickHouse提供的监控工具和性能分析工具,了解系统的实际运行状况,找到潜在的性能瓶颈并进行优化。
  10. 使用缓存
    • ClickHouse提供了缓存功能,可以通过启用缓存来加速特定查询的执行。合理配置和使用缓存,避免对所有查询都启用缓存,因为这可能导致缓存失效的问题。

以上是一些优化ClickHouse查询性能的常见方法,实际优化过程中需要结合具体业务场景和数据特点进行调整。

1.4 clickhouse里面有三个key,一个是primary key,还有sort key,还有partition key,这三个key分别是什么?

  1. Primary Key(主键)
    • 主键用于唯一标识表中的每一行。ClickHouse的表可以有一个或多个列组成的主键。当你指定一个主键时,ClickHouse将确保表中的每一行都具有唯一的主键值。
    • 主键的存在对于合并和查询性能很重要,因为ClickHouse利用主键信息来执行合并操作和快速查找。
  2. Sort Key(排序键)
    • 排序键定义了表中数据的物理排序顺序。ClickHouse使用MergeTree引擎,该引擎会根据排序键对数据进行排序存储。这种排序有助于提高范围查询的性能。
    • 如果没有指定排序键,ClickHouse将按照主键的顺序对数据进行排序。但是,如果你的查询模式更偏向范围查询而非单行查询,那么定义一个合适的排序键可能会显著提高性能。
  3. Partition Key(分区键)
    • 分区键用于将表中的数据划分为多个逻辑分区。每个分区都可以单独存储在不同的物理位置上,这有助于提高查询性能,尤其是在对特定分区进行查询时。
    • ClickHouse支持按照一个或多个列进行分区。分区键的选择通常基于查询模式和数据分布的特点。

综合来说,这三个键的作用如下:

  • 主键(Primary Key):用于唯一标识每一行。
  • 排序键(Sort Key):用于定义数据的物理排序,提高范围查询性能。
  • 分区键(Partition Key):用于将数据分成逻辑分区,提高查询性能和管理数据。

在设计表时,合理选择和配置这些键是优化ClickHouse查询性能的关键。根据数据分布、查询需求和硬件资源等因素,选择适当的主键、排序键和分区键来优化你的表结构。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值