- 不支持事务(这其实也是大部分
OLAP
数据库的缺点)。 - 稀疏索引使得它不适合通过主键进行单行的查询。所以它不适用于需要快速查询单行数据的应用场景。
- 缺少高频率、低延迟的修改或删除已存在数据的能力。它仅能用于批量删除或修改数据。
Clickhouse
并不能取代关系型数据,也不是为了处理事务性数据而开发的,Clickhouse
更多的是作为OLTP
(在线事务处理过程)数据库补充,方便用来进行数据分析。如果需要对数据进行更新和删除,或者需要进行多表关联,那么通常不推荐使用Clickhouse
。
1.2 为什么MySQL不使用列式存储?
- 分页友好,且可以将数据都放到叶子节点,便于范围查询。
MySQL
数据更新方便,这对列式存储是硬伤,所以很多OLAP
数据库不支持更新,或者用复杂的方式支持更新。- 事务型数据库的主要性能瓶颈是
I/O
,更新一行数据,列式存储需要进行多次I/O
,但是行式少数几次就够了。
1.3 clickhouse查询优化可以从哪几方面考虑去做?
- 表设计优化:
- 数据布局:ClickHouse使用MergeTree引擎,考虑到数据的物理布局对查询性能的影响很大。合理设计表的主键、索引和分区,以最大程度地减少查询时需要扫描的数据量。
- 数据类型选择:使用合适的数据类型来减小存储空间,例如使用FixedString而不是String,使用Int32而不是Int64,等等。
- 索引的使用:
- ClickHouse支持索引,但在大多数情况下,索引的维护成本可能比查询性能提升的效果更显著。仅在特定场景下考虑使用索引,例如在OLAP场景中对少量数据进行快速查找。
- 分区和合并:
- 合理使用分区可以加速数据的查询,特别是在只关心某个时间范围的查询中。点击房子可以通过按时间分区来进行数据分割。
- 合并和优化MergeTree引擎的操作,定期进行优化,以删除过期的数据、合并分区等。
- 使用样本数据:
- 对于大数据集,可以考虑使用样本数据进行查询优化。ClickHouse提供了SAMPLE关键字,可以在查询中使用部分数据进行测试和优化。
- 使用合适的引擎:
- ClickHouse提供了多个引擎,每个引擎都有其适用的场景。了解并选择适合你的使用场景的引擎,例如MergeTree适用于时间序列数据,而Distributed适用于分布式查询。
- 配置调优:
- 调整ClickHouse的配置文件,根据硬件资源和查询负载进行调优。例如,调整max_threads、max_memory_usage等参数,以充分利用系统资源。
- 并行查询和异步执行:
- ClickHouse支持并行查询和异步执行。合理设置并行度,通过异步执行降低查询的等待时间。
- 使用合适的查询语法:
- 了解ClickHouse查询语法的最佳实践,使用合适的技巧和语法结构。避免不必要的子查询和复杂的查询结构。
- 系统监控和性能分析:
- 使用ClickHouse提供的监控工具和性能分析工具,了解系统的实际运行状况,找到潜在的性能瓶颈并进行优化。
- 使用缓存:
- ClickHouse提供了缓存功能,可以通过启用缓存来加速特定查询的执行。合理配置和使用缓存,避免对所有查询都启用缓存,因为这可能导致缓存失效的问题。
以上是一些优化ClickHouse查询性能的常见方法,实际优化过程中需要结合具体业务场景和数据特点进行调整。
1.4 clickhouse里面有三个key,一个是primary key,还有sort key,还有partition key,这三个key分别是什么?
- Primary Key(主键):
- 主键用于唯一标识表中的每一行。ClickHouse的表可以有一个或多个列组成的主键。当你指定一个主键时,ClickHouse将确保表中的每一行都具有唯一的主键值。
- 主键的存在对于合并和查询性能很重要,因为ClickHouse利用主键信息来执行合并操作和快速查找。
- Sort Key(排序键):
- 排序键定义了表中数据的物理排序顺序。ClickHouse使用MergeTree引擎,该引擎会根据排序键对数据进行排序存储。这种排序有助于提高范围查询的性能。
- 如果没有指定排序键,ClickHouse将按照主键的顺序对数据进行排序。但是,如果你的查询模式更偏向范围查询而非单行查询,那么定义一个合适的排序键可能会显著提高性能。
- Partition Key(分区键):
- 分区键用于将表中的数据划分为多个逻辑分区。每个分区都可以单独存储在不同的物理位置上,这有助于提高查询性能,尤其是在对特定分区进行查询时。
- ClickHouse支持按照一个或多个列进行分区。分区键的选择通常基于查询模式和数据分布的特点。
综合来说,这三个键的作用如下:
- 主键(Primary Key):用于唯一标识每一行。
- 排序键(Sort Key):用于定义数据的物理排序,提高范围查询性能。
- 分区键(Partition Key):用于将数据分成逻辑分区,提高查询性能和管理数据。
在设计表时,合理选择和配置这些键是优化ClickHouse查询性能的关键。根据数据分布、查询需求和硬件资源等因素,选择适当的主键、排序键和分区键来优化你的表结构。