holo数仓查看表存储明细函数

最新推荐文章于 2025-10-13 19:34:27 发布

原创最新推荐文章于 2025-10-13 19:34:27 发布 · 835 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#postgresql #database

holo数仓同时被 3 个专栏收录

2 篇文章

订阅专栏

pgsql

2 篇文章

订阅专栏

数据库

1 篇文章

订阅专栏

本文介绍了如何在Holo数仓中，特别是V2.1及以上版本，通过pg兼容的hologres.hg_relation_size函数查询表的存储明细，包括数据、binlog、mv和所有类型的存储大小，帮助开发人员评估表占用的存储空间。

holo数仓查看表存储明细函数

背景

当开发人员需要查看holo表的存储明细时，在没有可视化的界面基础上，很难评估数据的所占存储

解决思路

holo数仓是基于pg协议的一款大数据数仓，可以通过pg兼容函数来查看，一下就回到熟悉的开发领域上了

hologres.hg_relation_size函数

使用限制
仅V2.1及以上版本Hologres实例支持使用hologres.hg_relation_size函数。
函数语法

SELECT hologres.hg_relation_size('<schema.table>','[data|binlog|mv|all]') ;

参数说明

参数	说明
schema.table	表的Schema名称和表名称。
[data\|binlog\|mv\|all]	可选参数，其中： data：表数据的存储大小。 binlog：表Binlog的存储大小。 mv：如果为该表创建了物化视图，代表物化视图占用的存储大小。 all：表的总存储量。

使用示例
查看单表的Binlog存储大小。

SELECT hologres.hg_relation_size('action_log.user_login_log','binlog') ;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Calvin_Huang

关注关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

大数据实时数仓Hologres（一）：Hologres 简单介绍

Lansonli（蓝深李）的博客

09-25

2326

Hologres是阿里巴巴自主研发的一站式实时数仓引擎（Real-Time Data Warehouse），支持海量数据实时写入、实时更新、实时加工、实时分析，支持标准SQL（兼容PostgreSQL协议和语法，支持大部分PostgreSQL函数），支持PB级数据多维分析（OLAP）与即席分析（Ad Hoc），支持高并发低延迟的在线数据服务（Serving），支持多种负载的细粒度隔离与企业级安全能力，与MaxCompute、Flink、DataWorks深度融合，提供企业级离在线一体化全栈数仓解决方案。

测试数据心得——holo

soldier_jw的博客

06-06

907

目前是做报表项目，经常会有新的报表通过新的视图呈现在前端，所以经常需要在新表里面造数据，有一个区划维度大概有100+,另外还有一些其他维度，此为背景，使用数据库为holo。

参与评论您还未登录，请先登录后发表或查看评论

【自记】MaxCompute 源表与外表、Hologres 源表与外表的系统对比和场景化解析

最新发布

2301_77449734的博客

10-13

722

MaxCompute 源表（MaxCompute Internal Table）本质：MaxCompute 本地存储的表，数据物理存储在 MaxCompute 的分布式文件系统（类似 HDFS）中，完全归属 MaxCompute 管理。核心特性离线批处理：专为海量数据（PB 级）的批量计算设计，支持（全量覆盖）、分区管理（如按日期分区）。ACID 有限：仅支持部分事务特性（如分区级原子性），不支持行级更新 / 删除。存储格式固定：默认存储为 ORC/Parquet 格式，压缩率高但不支持实时读写。

实时数仓-Hologres介绍与架构

weixin_43805705的博客

10-26

3191

本文是向大家介绍Hologres是一款实时HSAP产品，隶属阿里自研大数据品牌MaxCompute，兼容 PostgreSQL 生态、支持MaxCompute数据直接查询，支持实时写入实时查询，实时离线联邦分析，低成本、高时效、快速构筑企业实时数据仓库（Real-Time Data Warehouse）。

Postgresql、Hologres表结构查询语句

伊格尼斯

04-30

4857

Postgresql、Hologres表结构相关查询语句1、SQL语句展示2、相关字段说明3、其他结构查询语句展示3.1、3.2、统计每张表的分区数量3.3、 1、SQL语句展示 SELECT DISTINCT a.attnum as num, a.attndims as dimension_array, a.attname as name, t.typname as data_type, concat_ws('',t.typname,SUBSTRING(format_type(a.atttypid

Halo开源项目(0.1)---表结构分析

凡风的博客

07-08

1281

分析Halo数据库中表的结构, 可以更好的理解项目结构。同时也方便查询数据库中总共有18张表, 逐一分析 1. attachments 附件表 id: 主键 create_time : 创建时间 update_time : 更新时间 // oss file key or local file key (Just for deleting) file_key : 图片存储路径? height : 图片的高度 media_type : 图片类型 name : 图片的名字 path : 图片的访问路径 s

数仓建库-数据治理-004

Code365

07-09

1079

元数据通常定义为”关于数据的数据”，元数据贯穿了数据仓库的整个生命周期，使用元数据驱动数据仓库的开发，使数据仓库自动化，可视化。元数据打通了源数据、数据仓库、数据应用，记录数据从产生到消费的全过程。例如我们看一部电影，电影本身就是数据，那么元数据就是用来描述这部电影的数据。如下图所示：元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。

小迈科技 X Hologres：高可用的百亿级广告实时数仓建设

阿里云云栖号

07-01

1384

为了满足业务团队的数据需求，小迈大数据技术团队从业务发展早期就开始建设数仓系统，从传统的神策阶段过渡到离线数仓，再发展到如今稳定的流批一体实时数仓共经历了3个阶段，从业务和技术的挑战中，不断对数仓系统进行迭代优化，从而支撑业务快速增长。...

实时数仓入门训练营：实时数仓助力互联网实时决策和精准营销

阿里云开发者

07-21

1653

简介：《实时数仓入门训练营》由阿里云研究员王峰、阿里云高级产品专家刘一鸣等实时计算 Flink 版和 Hologres 的多名技术/产品一线专家齐上阵，合力搭建此次训练营的课程体系，精心打磨课程内容，直击当下同学们所遇到的痛点问题。由浅入深全方位解析实时数仓的架构、场景、以及实操应用，7 门精品课程帮助你 5 天时间从小白成长为大牛！本文整理自直播《实时数仓助力互联网实时决策和精准营销-合一》视频链接:https://developer.aliyun.com/learning/course/807/deta

Hologres+Flink流批一体首次落地4982亿背后的营销分析大屏

阿里云云栖号

12-01

1915

简介：本篇将重点介绍Hologres在阿里巴巴淘宝营销活动分析场景的最佳实践，揭秘Flink+Hologres流批一体首次落地阿里双11营销分析大屏背后的技术考验。概要：刚刚结束的2020天猫双11中，MaxCompute交互式分析（下称Hologres）+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地，为大数据平台创下一项新纪录。借此之际，我们将陆续推出云原生实时数仓双11实战系列内容，本篇将重点介绍Hologres在阿里巴巴淘宝营销活动分析场景的最佳实践，揭秘Flink+Hologr.

实时数仓入门训练营：Hologres 数据导入/导出实践

阿里云开发者

07-22

3363

简介：《实时数仓入门训练营》由阿里云研究员王峰、阿里云高级产品专家刘一鸣等实时计算 Flink 版和 Hologres 的多名技术/产品一线专家齐上阵，合力搭建此次训练营的课程体系，精心打磨课程内容，直击当下同学们所遇到的痛点问题。由浅入深全方位解析实时数仓的架构、场景、以及实操应用，7 门精品课程帮助你 5 天时间从小白成长为大牛！本文整理自直播《Hologres 数据导入/导出实践-王华峰(继儒)》视频链接:https://developer.aliyun.com/learning/course/807

ArgoDB Holodesk表格式对应的小文件合并

andarly的专栏

04-16

1142

当进行频繁的小数据量的写入操作，会导致出现大量的 base/delta 文件，并且内容很少（KB 级别），因此为了避免出现IO开销大，影响性能，内存占用高等一系列问题，小文件合并功能至关重要。本案例中，我们选择最近 7 天中，Compact 任务执行超过 5 分钟，且表的小文件数量大于 10 的条件进行筛选，列出小文件数量最多的 3 个表，我们可以基于此信息判断是否存在较多 Compact 慢的表，然后调整 Compact 参数，例如频率、资源分配等。菜单页面，我们可以查看各表当前的小文件数量。

在数据迁移过程中如何迁移holo（memory）表？

飘羽的博客

09-02

804

问题：因为holo表通过远程拷贝直接迁移到目的路径后是不可以直接用的。 1、首先我们要迁移的数据库中新建一个自己的数据库，并且进入新建的数据库中，不要使用生产环境的数据库进行操作。 create database test； use test； 2，查询之前的holo表的创建表的语句： show create table ***； 3、使用holo表的创建语句进行创建新表，但是需要去掉holo内容的部分（创建为orc表或者text表）： 4、然后将原来的holo表数据导入的新建表中： ins

hologres 建表/索引/查询优化

Direction_Wind的博客

11-17

3988

Bitmap不同于Distribution Key和Clustering Key，Bitmap是数据存储之外的独立索引，设置了Bitmap索引之后，系统会将列对应的数值生成一个二进制字符串，用于表示取值所在位置的Bitmap，当查询命中Bitmap时，会快速定位到数据所在的行号（Row Number），从而快速过滤出数据。大宽表的每一列都设置为Bitmap场景：如果为大宽表的每一列都设置为Bitmap，那么在写入时每个值都需要构建成Bitmap，会有一定的系统开销，从而影响写入性能。

Holo 使用场景说明

tangpengtao的专栏

10-28

713

aliyun hologres 使用场景说明各种索引的差异如何设置合适的主键 holo索引创建

常用holo语句

qq_41081716的博客

06-21

186

【代码】常用holo语句。

holo数仓静默修数据大法之屏蔽binlog（超好用）

CalvinHXM的博客

04-24

427

当holo的表生产的binlog会关联下游业务的时候，想要静默修数据的时候（比如加字段时填充值，下游业务又不关心这个字段的时候），binlog会产生非常多的冗余数据，下游无法及时消费，影响正常业务。holo数仓是基于pg协议进行开发的一款大数据数仓，支持session级别的屏蔽binlog操作，这样就可以避免下游无关操作堆积binlog影响数据及时性。Session级别开启，需添加在DML前一起执行。可见更新操作后，binlog无增加，至此完美解决。得到结果 (demo操作前)得到结果 (demo操作后)

大数据分批加载 postgresql 或者holo

DZH的博客

04-13

976

注释内容" >> ${path}/log.log。echo "$(date "+%Y-%m-%d %H:%M:%S") -- 开始替换 ${dest_path}/${split_file}/${ifile} " >> ${path}/log.log。echo "$(date "+%Y-%m-%d %H:%M:%S") -- 结束替换 ${dest_path}/${split_file}/${ifile}" >> ${path}/log.log。

holo 表分桶设计

07-10

<think>我们正在讨论Hologres表的分桶设计方法，目的是优化数据存储和查询性能。根据引用[3]：“分区指的是在一张表内对数据进行切分，分桶则指的是在一个分区内对数据进行分组。在大多数场景中设置分桶的概念是为了保证数据的离散度，使数据均匀分布，这样在后续的计算中通过并行处理，尽可能的提高资源利用率。设置分桶也可以加速数据的过滤。” 这说明了分桶的核心作用：保证数据均匀分布，提高并行处理效率，加速数据过滤。分桶设计的关键点： 1. 选择分桶字段：通常选择高基数的字段（即唯一值多的字段），如用户ID、订单ID等，这样可以避免数据倾斜。同时，该字段应经常出现在查询的过滤条件（WHERE子句）或连接条件（JOIN条件）中，以利用分桶加速过滤。 2. 确定分桶数量：分桶数量需要合理设置，过多或过少都会影响性能。一般建议分桶数量为集群Shard数量的整数倍（例如2倍），这样可以使数据均匀分布到各个Shard上。Hologres中一个Shard对应一个物理分片，分桶数设置不当可能导致数据倾斜或资源浪费。 3. 与分区结合：分区和分桶是两种不同的数据划分方式。分区通常按时间或枚举值划分，用于快速裁剪数据；分桶则在分区内进一步细分，用于并行计算。合理搭配分区和分桶可以极大提升查询性能。性能优化考虑： - 避免数据倾斜：如果分桶字段选择不当，导致某些桶的数据量过大，会拖慢整个查询。因此，选择高基数且分布均匀的字段至关重要。 - 与集群规模匹配：分桶数量应与集群的Shard数量协调。例如，如果集群有10个Shard，那么分桶数可以设置为20（即2倍），这样每个Shard会处理2个桶的数据，实现负载均衡。 - 查询模式：根据查询模式调整分桶策略。如果查询经常按某个字段进行等值查询或连接，那么选择该字段作为分桶字段可以显著提升性能。示例建表语句（参考引用[2]和[3]）： ```sql CREATE TABLE user_orders ( user_id bigint, order_id bigint, order_time timestamp, amount double precision, -- 其他字段... ) PARTITION BY DATE(order_time) -- 按天分区 WITH ( distribution_key = 'user_id', -- 分桶字段（分布键） bucket_count = 32, -- 分桶数量，建议为Shard数的整数倍 clustered_by = (order_id) -- 可选，在桶内按order_id排序，加速范围查询 ); ``` 在这个例子中，我们按`order_time`进行分区（按天），然后按`user_id`进行分桶（分布键），并设置了32个分桶。同时，我们使用`clustered_by`指定了桶内按`order_id`排序，这样在按订单ID范围查询时可以利用局部有序性加速查询。注意事项： - 分桶字段一旦确定，就不能修改（因为数据已经按此分布）。因此设计时需要慎重。 - 分桶数量在表创建后也不能修改，所以需要预先估计数据量和增长趋势。综上所述，Holo表的分桶设计需要综合考虑业务查询模式、数据分布特性和集群资源，以达到最优的查询性能。 §§相关问题§§ 1. Hologres中分桶数量如何确定？有没有具体的计算公式？ 2. 如果分桶字段选择不当导致数据倾斜，应该如何解决？ 3. Hologres的分桶策略与分区策略应该如何配合使用？ 4. 除了分桶，Hologres还有哪些性能优化手段？</think>### Hologres分桶设计方法与性能优化 #### 分桶核心原理根据引用[3]，分桶是在分区内对数据进行分组的技术，核心目的是： 1. **保证数据离散度**：使数据均匀分布，避免数据倾斜 2. **提高并行效率**：通过分组实现并行处理，最大化资源利用率 3. **加速数据过滤**：桶内数据有序性可优化范围查询性能分桶公式可表示为： $$BucketID = hash(ColumnValue) \mod N$$ 其中$N$为分桶数量，$hash$为哈希函数。 #### 分桶设计方法 1. **分桶字段选择原则**： - 高基数字段（如用户ID、设备ID） - 高频查询字段（如WHERE子句常用列） - 避免选择低基数字段（如性别、状态标志） 2. **分桶数量确定**（引用[3]）： ```数学公式 N = k \times S ``` 其中： - $S$ = Shard数量（物理分片数） - $k$ = 并行系数（建议2-4） - 示例：10个Shard时，分桶数取20-40 3. **与分区协同设计**： - 分区层：按时间/地域粗粒度划分（如`PARTITION BY DATE(event_time)`） - 分桶层：在分区内按业务键细粒度分组（如`DISTRIBUTED BY user_id`） #### 性能优化策略 1. **查询加速**： - 等值查询：`WHERE bucket_key = X` 直接定位桶 - 范围查询：桶内数据有序存储可加速`BETWEEN`操作 - JOIN优化：相同分桶策略表可实现**桶对齐JOIN** 2. **写入优化**： ```sql -- 建表示例（结合引用[2][3]） CREATE TABLE user_behavior ( user_id BIGINT, event_time TIMESTAMP, action VARCHAR ) PARTITION BY DATE(event_time) -- 时间分区 DISTRIBUTED BY (user_id) -- 分桶字段 BUCKET COUNT 32; -- 分桶数 ``` 3. **存储优化**： - 自动冷热分层：热数据存内存，冷数据存SSD（引用[2]） - 数据压缩：列存格式自动压缩（ORC/Parquet） #### 典型场景配置 | 场景 | 分区策略 | 分桶字段 | 分桶数 | 优势 | |------|----------|----------|--------|------| | 用户行为分析 | 按天分区 | `user_id` | Shard数×2 | UV统计优化 | | 交易流水 | 按月分区 | `order_id` | Shard数×3 | 订单查询加速 | | IoT数据 | 按设备类型 | `device_id` | Shard数×4 | 设备维度聚合 | #### 注意事项 1. **避免过度分桶**：桶数过多会增加元数据开销 2. **监控数据倾斜**：定期检查`SELECT hg_skewness(table_name)` 3. **动态调整**：随着数据增长，需重新评估分桶策略（需重建表） > 引用说明： > [^1]：实时数仓分层架构需保证数据高效流动 > [^2]：数据分层管理需平衡一致性与性能 > [^3]：分桶设计核心是保证数据均匀分布与并行效率 > [^4]：需权衡功能差异与延迟要求