干货 | 性能提升400%，ClickHouse在携程酒店数仓的实践

原创

于 2020-09-24 17:00:00 发布 · 1.5k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#编程语言 #大数据 #java #人工智能 #hadoop

作者简介

小琴，携程高级数据经理，负责酒店BI、数仓工作，专注于大数据应用领域多年。

一、背景

随着时间推移和业务的快速发展，携程酒店数据累积越来越多。目前流量日数据在3T左右，再加上各种订单、价、量、态等数据更是庞大。现有Hive（Spark引擎）执行速度虽然相对较快，但在国际化发展背景下，一些海外业务由于时差问题，数据需要比国内提前数小时完成，性能提升迫在眉睫。2020年初，我们开始研究ClickHouse在数据仓库领域应用。

本文将从技术方案选型、集成开发环境封装、ClickHouse代码优化技巧、异常问题处理、服务器故障处理五个方面分享ClickHouse实践，希望给关注同样问题的同学有所启发。

二、技术预研与技术方案选型

1）公司内部有无ClickHouse集群使用环境。经过了解知晓，原ClickHouse验证集群正准备下线，无可用环境；

2）办公电脑通过Vmware搭建ClickHouse集群，部分同学基于单机练习ClickHouse语法以及验证各项ClickHouse特性，部分专攻ClickHouse集群搭建及各项配置、集成开发环境的封装等底层功能。

3）2020年3月，Vmware搭建ClickHouse集群基本完成各项验证，同时4台物理服务器（配置：内存-256G，CPU-40core，硬盘-3.5T）到位。为保证对生产平稳过渡（不给生产DB造成额外压力），我们从Hive ODS层同步数据至ClickHouse ODS层，技术方案如下图1（橙色部分是ClickHouse实现部分）：

图1

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。