大数据面试之Clickhouse

最新推荐文章于 2025-03-18 20:26:14 发布

尚硅谷铁粉

最新推荐文章于 2025-03-18 20:26:14 发布

阅读量257

点赞数

文章标签：大数据面试 clickhouse

本文链接：https://blog.youkuaiyun.com/zjjcchina/article/details/133762466

版权

Clickhouse 的优势

快：提供了丰富的表引擎，每个表引擎都做了尽可能的优化。

为什么快？

（1）向量化

（2）列式

（3）尽可能使用本节点的内存+cpu，不依赖其他组件，比如 Hadoop

（4）提供了 sql 化的语言

（5）支持自定义函数

（6）提供了丰富的表引擎，引擎都经过了优化

Clickhouse 的引擎

（1） Log

（2） Special： Memory 、 Distributed

（3） MergeTree： replacingmergetree 、 summingmergetree replicatedmergetree

（4）集成引擎：外部系统映射，如 MySQL

Flink 写入 Clickhouse 怎么保证一致性？

Clickhouse 没有事务， Flink 写入是至少一次语义。

利用 Clickhouse 的 ReplacingMergeTree 引擎会根据主键去重，但只能保证最终一致性。查询时加上 final 关键字可以保证查询结果的一致性。

Clickhouse 存储多少数据？几张表？

10 几张宽表，每天平均 10 来 G，存储一年。

需要磁盘 10G * 365 天 * 2 副本/0.7 = 约 11T

Clickh

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

尚硅谷铁粉

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

click-house其他引擎

weixin_42842042的博客

10-20

306

1.其他引擎 1.1memory 特点：数据不会写入到磁盘，重启机器以后表还在但是数据丢失应用场景：测试代码段代码： -- 创建一个Memory引擎的表 create table tb_memory(id Int8 , name String) engine = Memory ; -- 插入数据 insert into tb_memory values (1,'zss'),(2,'lss'),(3,'peiqi') ; -- 存储数据的文件夹中没有对应的表文件夹 -- 查看数据 selec

2024年最全大数据存储技术之ClickHouse入门学习（一）(2)

2401_84182793的博客

05-03

723

集群定义的元数据在zookeeper中保存，如果修改了已定义好的集群表的集群配置可能会导致表变成只读状态，这时需要去zookeeper上查看clickhouse的元数据信息是否和当前表匹配。在 tgz 安装的版本中，clickhouse服务端默认配置的 /etc/clickhouse-server/config.xml 中已经默认配置了三个本地测试的分片副本集群，分别为。在rmp安装的版本中，clickhouse服务端默认配置的 /etc/clickhouse-server/config.xml 中表明。

参与评论您还未登录，请先登录后发表或查看评论

阿里云ClickHouse海量数据分析

东境物语

07-11

3744

2020年clickhouse就是一批黑马，成功脱颖而出，在各大互联网都受到青睐，头条、腾讯、快手、阿里都在使用clickhouse，下面我们一起来学习一下阿里巴巴在clickhouse中的经验分享。

clickhouse介绍

热门推荐

司马懿的西山居

11-30

1万+

错误 localhost :) insert into `test`.`test_memory` select * mysql('192.168.100.101:3306','test',"test_memory','root','<密码>'); Received exception from server (version 21.11.3): Code: 241. DB::Exception

ClickHouse深度揭秘

u014659211的专栏

08-24

362

引言 ClickHouse是近年来备受关注的开源列式数据库，主要用于数据分析（OLAP）领域。目前国内社区火热，各个大厂纷纷跟进大规模使用：今日头条内部用ClickHouse来做用户行为分析，内部一共几千个ClickHouse节点，单集群最大1200节点，总数据量几十PB，日增原始数据300TB左右。腾讯内部用ClickHouse做游戏数据分析，并且为之建立了一整套监控运维体系。携程内部从18年7月份开始接入试用，目前80%的业务都跑在ClickHouse上。每天数据增量十多亿，近百万次查询.

大数据面试指南--20240708

qq_61732242的博客

07-08

1214

关系型数据库（RDB，Relational Database）就是一种建立在关系模型的基础上的数据库。关系模型表明了数据库中所存储的数据之间的联系（一对一、一对多、多对多）。关系型数据库中，数据都被存放在了各种表中（比如用户表），表中的每一行就存放着一条数据（比如一个用户的信息）大部分关系型数据库都使用 SQL 来操作数据库中的数据。并且，大部分关系型数据库都支持事务的四大特性(ACID)。

最全的大数据大厂面试宝典，大数据面试题，大数据面试，王傲旗的大数据之路，大数据成神之路，Flink,Spark,Hadoop,Hbase,Hive,Impala,Hbase,MapReduce.zip

01-01

大数据-全笔记最全的大数据面试文章指南从入门到架构！目录大纲功能说明导演了解數據采集 Flume、Logstash、Canal Maxwell、Databus、NIFI数据同步 DataX、Sqoop、Kettle FlinkX悲痛 HDFS、HBase、Kudu、MongoDB、...

2401_84185471的博客

05-05

652

包含核心的基本的事务处理逻辑，用户对于性能的要求很高，用户点击界面之后，响应时间最低要求在5秒之内（通常3秒以内），同时需要支持比较高的用户并发度。OLTP的数据操作通常面向的是1条或几条少量数据，比如：用户下单操作该用户的购物车、支付记录、积分记录等少量数据。理解上面的两个数据，剩下的就简单多了，数据库通常面向OLTP操作，数据仓库通常面向OLAP操作。又比如：用户商品点击量数据、用户操作行为数据、用户网页浏览时长数据等等，这些数据都是对用户进行分析所需要的数据，一旦入库不会修改。

什么是 ClickHouse（实时数据分析数据库）

qq_43842093的博客

12-24

271

1、ClickHouse是俄罗斯搜索巨头 Yandex 公司早 2016年开源的一个极具 " 战斗力 " 的实时数据分析数据库，开发语言为C++2、是一个用于联机分析OLAP:Online Analytical Processing) 的列式数据库管理系统(DBMS:Database Management System)，简称CK3、工作速度比传统方法快100-1000倍，ClickHouse 的性能超过了目前市场上可比的面向列的DBMS。每秒钟每台服务器每秒处理数亿至十亿多行和数十千兆字节的数据。

极光笔记 | 极光clickhouse千亿级数据分析实践之路

weixin_57579230的博客

10-28

1813

为了实现支持单表百亿数据集中查询分析时，能够灵活选择各种维度组合并且秒级返回执行结果，ClickHouse按列存储的特性便可以极大提升数据查询的效率，因为按列存储与按行存储相比，前者可以有效减少查询时所需扫描的数据量，如果数据按行存储，数据库首先会逐行扫描，并获取每行数据的所有字段，再从每一行数据中返回查询所需要的字段，导致会扫描所有的字段。ClickHouse同时支持丰富的二级索引，支持跳表结构、Bloom Filter等过滤功能，从而在查询时尽可能的减少不必要的记录读取，提高查询性能。

用4c8g单机ClickHouse完美解决亿级数据量企业画像查询毫秒级响应

白杨Shayne的博客

07-02

1234

ClickHouse是一个开源免费的，面向列的MPP架构数据分析数据库(大规模并行处理)，由俄罗斯Yandex为OLAP和大数据用例创建。打开页面第一次查询，会慢一些，大概在2s以内，其它的查询基本上在200ms以内，虽然首次查询慢了一些，但满足合同需求，问题不大。用下来整体感觉还是很惊艳的，因为单机扛住了亿级数据量的查询。

clickhouse 亿级数据性能测试

weixin_48967543的博客

03-17

1394

clickhouse 在数据分析技术领域早已声名远扬，如果还不知道可以点这里了解下。最近由于项目需求使用到了 clickhouse 做分析数据库，于是用测试环境做了一个单表 6 亿数据量的性能测试，记录一下测试结果，有做超大数据量分析技术选型需求的朋友可以参考下。服务器信息网上购物 m.cqfenfa.com CPU：Intel Xeon Gold 6240 @ 8x 2.594GHz 内存：32G 系统：CentOS 7.6 Linux内核版本：3.10.0 磁盘类型：机械硬盘文件系统：ext.

ClickHouse vs. Elasticsearch：十亿行数据的较量

ClickHouseDB的博客

06-25

2207

在详细展示基准测试结果之前，我们先提供一个简要总结。10 亿行数据集ClickHouse 存储 10 亿行数据集所需的磁盘空间比 Elasticsearch 少 12 倍。聚合查询 ①（执行全数据集聚合）在 ClickHouse 上的运行速度是 Elasticsearch（查询 DSL）的 5 倍。聚合查询 ②（聚合过滤后的数据集）在 ClickHouse 上的运行速度是 Elasticsearch（查询 DSL）的 6 倍。

ClickHouse数据库详解和应用实践

老码农的博客

12-31

4646

ClickHouse 是一个用于联机分析 (OLAP) 的开源的列式数据库管理系统 (DBMS)。来自于俄罗斯本土搜索引擎企业 Yandex 公司。ClickHouse具有ROLAP、在线实时查询、完整的 DBMS 功能支持、列式存储、支持批量更新、拥有非常完善的SQL支持和函数、支持高可用、不依赖 Hadoop 复杂生态、开箱即用等许多特点。

Clickhouse使用总结

lpping90的专栏

11-28

917

前段时间参与的项目主要采集大量的日志数据，进行各种的存储和分析，并产出可展示的数据，提供出接口等供其他项目和大屏进行展示。经测试，Clickhouse并发支持率不高，实际在数据库并发连接20-30左右会出现崩溃现象，几分钟后自动重启，所以最好是少量的连接，只进行数据的插入和分析等操作。单机数据量支持亿级别，目前项目中的日志，部分已超亿级甚至10亿级，同时关联其他如组织表用户表等进行多表关联及分组、排序等查询，仍可在几秒内进行处理完成，更复杂的sql能在20秒内执行完成，满足数据汇总需求。

什么？部署ClickHouse的服务器CPU利用率100%了？

zcs_978176963的博客

05-20

4026

灵活运用clickhouse的query_log定位生产环境的故障，快速解决问题

2022深圳大数据面试深度解析

"03-2022年深圳大数据面试题汇总.pdf" 是一份针对2022年深圳大数据面试的题库，包含了多个章节的面试问题，涵盖Java、大数据、MySQL、数据结构、Hive、Flink等多个领域。这份面试题库详细列举了面试中可能遇到的...