
MPPDB
文章平均质量分 83
enjoy编程
Stay hungry, stay foolish.(求知若饥,虚心若愚。)10+IT行业老兵,熟悉大数据处理,分布式编程, 喜欢使用java、python解决工作、生活中的问题
展开
-
clickhouse MPPDB数据库 实现复杂功能的SQL示例
clickhouse MPPDB数据库 实现复杂功能的SQL示例原创 2024-08-24 12:16:55 · 437 阅读 · 0 评论 -
clickhouse MPPDB数据库--新特性使用示例
从clickhouse 22.3至最新的版本24.3.2.23,clickhouse在快速发展中,每个版本都增加了一些新的特性,在数据写入、查询方面都有性能加速。本文根据[clickhouse blog](https://clickhouse.com/blog)中的clickhouse release blog中,学习并梳理了一些在实际工作中可能用到的新特性。原创 2024-04-04 14:08:35 · 1250 阅读 · 0 评论 -
clickhouse MPPDB数据库 运维实用SQL总结IV
clickhouse针对分布式DDL执行报错及写入数据时表table_is_read_only 问题的修复方法原创 2023-09-21 21:30:00 · 446 阅读 · 0 评论 -
clickhouse MPPDB数据库 运维实用SQL总结III
下添加如下配置,注意:每行host指定一个要访问的其它CH集群的节点IP。执行如下SQL, 如果能正常返回结果,则配置成功。修改后,这个配置是立即生效的,通过。进入到CH的客户端命令行界面,修改CH的配置文件,在。原创 2023-07-27 23:00:00 · 735 阅读 · 0 评论 -
数据仓库系列:StarRocks 入门培训教程
StarRocks 是一款MPP DB, 对标ClickHouse、Vertica、Teradata、Greenplum,在查询性能上远超当代最快的开源数据库 clickhouse,目前已经被一众互联网企业在生产环境中采用。本文是使用starrocks的入门培训教程原创 2023-06-29 19:23:47 · 4499 阅读 · 0 评论 -
数据仓库系列:如何将StarRocks集群与Jupyter集成?
如何将StarRocks集群与Jupyter集成呢?在Jupyter中连接StarRocks集群,运行SQL语句并对数据进行可视化分析,所有这些都是通过Jupysql实现的。JupySQL允许您通过%sql,%%sql, and %sqlplot魔术在Jupyter中运行SQL和绘制大型数据集。JupySQL兼容所有主流数据库(如PostgreSQL、MySQL、SQL Server)、数据仓库(如Snowflake、BigQuery、Redshift)和嵌入式引擎(SQLite和DuckDB)。原创 2023-06-20 13:05:15 · 641 阅读 · 0 评论 -
clickhouse--通过命令行导入、导出数据示例
clickhouse--通过命令行导入、导出数据示例原创 2023-06-14 13:01:39 · 990 阅读 · 0 评论 -
clickhouse MPPDB数据库 运维实用SQL总结II
clickhouse MPPDB数据库 运维实用SQL总结II原创 2023-05-31 12:07:47 · 688 阅读 · 0 评论 -
数据仓库系列:StarRocks的简单试用及与clickhouse的对比
本文记录针对StarRocks的试用情况,并拿StarRocks与ClickHouse进行了对比。StarRocks 与 ClickHouse 是两款基于 MPP 架构的列式数据库管理系统,都可以提供高性能的 OLAP 分析能力。 但是它们在功能、性能和使用场景上也有一些区别想知道这些区别嘛,快来看看这篇文章吧原创 2023-04-09 20:11:48 · 3786 阅读 · 0 评论 -
数据仓库系列:StarRocks 下一代高性能分析数据仓库的架构、数据存储及表设计
本文是学习StarRocks的读书笔记,让你快速理解下一代高性能分析数据仓库的架构、数据存储及表设计。原创 2023-04-09 09:17:22 · 3161 阅读 · 0 评论 -
clickhouse--join操作汇总【semi、anti、any、asof、global、colocate、cross】
clickhouse--join操作汇总【semi、anti、any、asof、global、colocate、cross】原创 2022-08-23 21:45:00 · 4393 阅读 · 0 评论 -
clickhouse--json字段类型及基于json相关函数进行行列转换
clickhouse 22版本中新添加了一种字段类型: json, 存储JavaScript Object Notation (JSON) documents 在单个字段中JSON字段类型目前还是一个实验特性,如果启用,需要设置:`allow_experimental_object_type = 1`本文讲解json字段类型如何使用,将基于json相关的函数如何进行行列转化、字段提取及解析json数组。原创 2022-08-22 23:07:57 · 8077 阅读 · 0 评论 -
docker for windows--Windows 10 家庭中文版安装clickhouse 22.3版本及配置
docker for windonws系列本文讲解在Windows 10 家庭中文版安装clickhouse 22.3的单机版及集群版并对遇到的问题给出解决方案原创 2022-08-22 19:45:00 · 1033 阅读 · 0 评论 -
clickhouse--如何使用Projection (投影) 对SQL进行提速?
Clickhouse的MergeTree只支持一种排序规则, Order By 同时决定了主键稀疏索引和数据的排序。物化视图本质上一张独立的表,通过原表的触发器,实时的向视图表写入数据,会存在与原表数据一致性的问题。这些限制了Clickhouse的一些使用。clickhouse在21.8以上版本引入了Projection (投影) 功能,投影类似于物化视图,提供了一致性保证以及查询中的自动使用, 可以将SQL查询性能提升20倍以上。本文详细介绍Projection (投影) 功能及使用方法。原创 2022-01-11 22:45:00 · 4080 阅读 · 0 评论 -
clickhouse--基于 Yandex.Metrica 数据集进行基准测试
如何基于 Yandex.Metrica 数据集,在服务器上运行基本的 ClickHouse 性能测试呢?本文提供在单机版上进行 ClickHouse 性能测试的指导,如果想在clickhouse集群上进行性能测试,只需要将表建成分布式表即可。原创 2022-01-11 21:15:00 · 852 阅读 · 0 评论 -
clickhouse--玩转行列转换
在进行数据分析时,时常会遇到行转列、列转行的查询需求。Clickhouse是一款功能强大的分析型数据库,提供了多种方法进行行列的转换,能完美支撑你的查询需求。原创 2022-01-11 19:45:00 · 6946 阅读 · 0 评论 -
clickhouse--Window Functions 窗口函数概念讲解及实际使用示例
Window Functions 在clickhouse的需求和呼声很高,早期的版本需要借助array类函数【如`groupArray`, `arrayJoin`, `groupArrayMovingSum` , `groupArrayMovingAvg functions`】实现,在v21.3版本进行了开窗函数的初步支持,但只是实验版本,在v21.9版本正式支持,可以在生产中使用。本文针对Window Functions 窗口函数概念、如何开启窗口函数的支持进行讲解,并提供实际使用的SQL示例原创 2021-12-28 21:45:00 · 8108 阅读 · 0 评论 -
clickhouse--物化视图MaterializedView原理及使用示例
物化视图是查询结果集的一份持久化存储,所以它与普通视图完全不同,而非常趋近于表。产生物化视图的过程就叫做“物化”。广义地讲,物化视图是数据库中的预计算逻辑+显式缓存,典型的空间换时间思路。物化视图可以计算聚合,重组表主索引和排序顺序,可以很好地跨大量节点和处理大型数据集,是ClickHouse的一个显著特征。本文讲解ClickHouse物化视图的原理及使用示例原创 2021-12-23 20:15:00 · 7630 阅读 · 0 评论 -
ClickHouse 的25条SQL军规
ClickHouse 的25条SQL军规通过规范建表及SQL语句,提高数据的写入、查询性能原创 2021-12-21 22:45:00 · 1008 阅读 · 2 评论 -
clickhouse 核心特性及架构介绍
ClickHouse的全称是:Click Stream,Data WareHouse 简称:CH是用于联机分析处理(OLAP)的列式数据库管理系统(DBMS),提供千亿级大数据集的在线多维查询和分布式存储本文针对CH的特性、适用场景、不适用场景及架构进行初步介绍,提供CH的基础入门知识。原创 2021-12-21 20:15:00 · 2420 阅读 · 0 评论 -
clickhouse 基于集群实现分布式DDL的使用示例及坑
在ClickHouse中创建表、删表等DDL操作是一件麻烦的事,需要登录集群中的每一个节点去执行DDL语句,怎么简化这个操作呢?ClickHouse(即CH)支持集群模式。可以在DDL语句上附加ON CLUSTER <cluster_name>的语法,使得该DDL语句执行一次即可在集群中所有实例上都执行,简单方便。一个集群拥有1到多个节点。CREATE、ALTER、DROP、RENAME、TRUNCATE这些DDL语句,都支持**分布式执行原创 2021-12-20 22:12:44 · 2425 阅读 · 0 评论 -
clickhouse 查询系统高频SQL及慢SQL
本文提供基于python notebook,根据query_log查询日志,分析系统的高频SQL、查询慢SQL、查询慢的SQL在客户端的分布情况,为下一步的优化提供依据。原创 2021-12-17 19:30:00 · 3348 阅读 · 0 评论 -
clickhouse MPPDB数据库 运维实用SQL总结
注意:因为测试使用的python notebook + pandas, 所有 %使用的是%%在SQL的末尾,可以增加返回数据的格式FORMAT CSVWithNamesFORMAT TabSeparatedWithNamesAndTypes1. 执行SQL查询1.1. 查看正在执行的查询语句--查询SELECT query_id, user, address, elapsed, queryFROM system.processesORDER BY query_id ASC--杀死执原创 2021-12-01 20:15:00 · 2476 阅读 · 0 评论 -
clickhouse MergeTree引擎的多路径存储配置及支持HDFS等外部存储
多路径存储策略多路径存储策略介绍使用多块设备存储数据配置官方说明clickhouse从19.15开始,MergeTree族表引擎可以在多个块设备上存储数据。例如,当某个表的数据隐式地划分为“热”和“冷”时,它可能很有用。最近的数据经常请求,但只需要少量的空间。历史数据很少被请求,但需要大量的空间。如果有几个可用的磁盘,“热”数据可能位于快速磁盘(例如,NVMe ssd或内存),而“冷”数据位于相对较慢的磁盘(例如,HDD)。支持的策略MergeTree支持的存储策略如下:JBOD策原创 2021-10-13 11:51:44 · 1032 阅读 · 1 评论