starrocks聚合表使用

最新推荐文章于 2025-06-04 09:06:22 发布

talen_hx296

最新推荐文章于 2025-06-04 09:06:22 发布

阅读量630

点赞数 5

CC 4.0 BY-SA版权

文章标签： java 前端服务器

本文链接：https://blog.youkuaiyun.com/talen_hx/article/details/136444983

本文介绍了如何在HBase或类似的分布式列族数据库中创建一个聚合表site_access_log，使用动态分区管理和初始化数据，包括设置分区范围和执行INSERT操作以自动统计访问数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、创建聚合表

CREATE TABLE IF NOT EXISTS site_access_log (
    `access_date` DATE NOT NULL COMMENT "访问日期",
    `ip` VARCHAR(200) COMMENT "ip",
    `cnt` BIGINT SUM DEFAULT "0" COMMENT "访问数"
)
AGGREGATE KEY(access_date, ip)
PARTITION BY RANGE(`access_date`) ( )
DISTRIBUTED BY HASH(`access_date`)
PROPERTIES (
    "dynamic_partition.enable" = "true",
    "dynamic_partition.time_unit" = "DAY",
    "dynamic_partition.start" = "-180",
    "dynamic_partition.end" = "3",
    "dynamic_partition.prefix" = "sal",
    "dynamic_partition.buckets" = "10"
);

如果要初始化之前的数据，需要执行以下脚本

ALTER TABLE site_access_log SET("dynamic_partition.enable"="false");
ALTER TABLE site_access_log ADD PARTITIONS START ("2023-11-17") END ("2023-11-30") EVERY (INTERVAL 1 DAY);
ALTER TABLE site_access_log SET("dynamic_partition.enable"="true");

2、直接执行insert语句

INSERT INTO site_access_log VALUES('2023-11-18','1.1.1.1',1);

这样就能自动统计数量

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

talen_hx296

关注关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

使用StarRocks创建表并导入和查询数据

AlianBlank的博客

08-21

843

通过CREATE TABLE语句创建表，使用INSERT语句导入数据，并使用SELECT语句查询数据。在上述示例中，我们创建了一个名为my_table的表，它包含三个列：id、name和age。StarRocks是一个大数据处理平台，它提供了高效的数据导入和查询功能。除了基本的查询语句，StarRocks还支持更高级的查询功能，如JOIN操作、子查询、分组和排序等。用户可以根据自己的需求编写复杂的查询语句。上述示例将三行数据插入到my_table表中，每行数据包含id、name和age三个列的值。

大数据StarRocks(七)：数据表创建

运维仙人

01-14

3494

建表的基本语法[key_desc]参数说明col_name：列名称注意，在一般情况下，不能直接创建以以 __op 或 __row 开头命名的列，因为此类列名被 StarRocks 保留用于特殊目的，创建这样的列可能导致未知行为。如需创建这样的列，必须将 FE 动态参数 allow_system_reserved_names 设置为 TRUE。col_type：列数据类型之前博文数据类型agg_type：聚合类型，如果不指定，则该列为 key 列。否则，该列为 value 列。

参与评论您还未登录，请先登录后发表或查看评论

整合StarRocks主键表全部知识点

qq_18218071的博客

07-24

2354

总结starrocks主键表全部知识点

StarRocks表类型之聚合表

vv5559999的博客

05-09

748

建表时，支持定义排序键和指标列，并为指标列指定聚合函数。当多条数据具有相同的排序键时，指标列会进行聚合。在分析统计和汇总数据时，聚合表能够减少查询时所需要处理的数据，提升查询效率。

StarRocks聚合表原理与应用指南

gitblog_00304的博客

06-04

303

StarRocks聚合表原理与应用指南什么是聚合表 聚合表是StarRocks中一种特殊的表类型，它通过在表创建时定义聚合键和指定聚合函数，实现对数据的预聚合处理。当多行数据具有相同聚合键时，值列中的数值会被自动聚合计算。这种设计特别适合数据分析场景，能够显著减少查询时需要处理的数据量，提高查询效率。适用场景 聚合表最适合以下数据分析场景：用户行为分析：分析用户在网站或APP上的停留时长、...

前端报表数据处理【去重、行转列、交叉、聚合】

weixin_34153893的博客

06-06

670

原始数据 let data = { fields: ['name', 'subject', 'score'], data: [ ['张三', '语文', 86], ['李四', '语文', 92], ['王五', '语文', 56], ['张三', '数学',...

深入了解 StarRocks 表类型：解锁高效数据分析的密码

qq_40025337的博客

01-04

1593

排序键可以通过。

StarRocks（二）表设计

Yuan_CSDF的博客

12-25

3201

1、表设计 1.1、列式存储 StarRocks的表和关系型数据相同, 由行和列构成. 每行数据对应用户一条记录, 每列数据有相同数据类型. 所有数据行的列数相同, 可以动态增删列. StarRocks中, 一张表的列可以分为维度列(也成为key列)和指标列(value列), 维度列用于分组和排序, 指标列可通过聚合函数SUM, COUNT, MIN, MAX, REPLACE, HLL_UNION, BITMAP_UNION等累加起来. 因此, StarRocks的表也可以认为是...

大数据StarRocks(三) StarRocks数据表设计_starrocks单表存储数据多大

2401_84181731的博客

05-07

1015

StarRocks 通过前缀索引 (Prefix Index) 和列级索引，能够快速找到目标行所在数据块的起始行号。StarRocks 表设计原理如下图所示。

大数据StarRocks(三) StarRocks数据表设计_starrocks单表存储数据多大(2)

2401_84181731的博客

05-07

672

Bitmap只能表示取值为两种情形的列数组, 当列的取值为多种取值情形枚举类型时, 例如季度(Q1, Q2, Q3, Q4), 系统平台(Linux, Windows, FreeBSD, MacOS), 则无法用一个Bitmap编码;此时可以为每个取值各自建立一个Bitmap的来表示这组数据;同时为实际枚举取值建立词典.如上图所示，Platform列有4行数据，可能的取值有Android、Ios。

Starrocks的表引擎选择及表属性的设置详细说明

yuanmomoya的博客

10-12

1731

Starrocks的表引擎选择及表属性的设置详细说明

大数据StarRocks(三) StarRocks数据表设计

运维仙人

01-04

2775

StarRocks的表和关系型数据库类似, 由行和列构成. 每行数据对应用户一条记录, 每列数据有相同数据类型. 所有数据行的列数相同, 可以动态增删列. StarRocks中, 一张表的列可以分为维度列(也成为key列)和指标列(value列), 维度列用于分组和排序, 指标列可通过聚合函数SUM, COUNT, MIN, MAX, REPLACE, HLL_UNION, BITMAP_UNION等累加起来. 因此, StarRocks的表也可以认为是多维的key到多维指标的映射.

【大数据】StarRocks的四种数据模型

像风走过八千里

05-30

3255

这边博客，我们主要来学习下StarRocks的四种数据模型：明细模型 (Duplicate Key Model)、聚合模型 (Aggregate Key Model)、更新模型 (Unique Key Model) 和主键模型 (Primary Key Model)。这四种数据模型能够支持多种数据分析场景，例如日志分析、数据汇总分析、实时分析等。

数据仓库系列：StarRocks 下一代高性能分析数据仓库的架构、数据存储及表设计

penriver的博客

04-09

3368

本文是学习StarRocks的读书笔记，让你快速理解下一代高性能分析数据仓库的架构、数据存储及表设计。

StarRocks的应用场景

齐天大圣数据候的博客

04-25

4597

StarRocks的应用场景 StarRocks简介 StarRocks是新一代极速全场景MPP数据库。 StarRocks充分吸收关系型OLAP数据库和分布式存储系统在大数据时代的优秀研究成果，在业界实践的基础上，进一步改进优化、升级架构，并增添了众多全新功能，形成了全新的企业级产品。 StarRocks致力于构建极速统一分析体验，满足企业用户的多种数据分析场景，支持多种数据模型(明细模型、聚合模型、更新模型)，多种导入方式（批量和实时），支持导入多达10000列的数据，可整合和接入多种现有系统(Spa

理解StarRocks表设计

要啥自行车，一把梭~

05-17

810

列式存储稀疏索引加速数据处理

第2.1章：StarRocks表设计--概述

流木的博客

12-18

5050

建表是使用StarRocks非常重要的一环，规范的表设计在某些场景下甚至能使查询性能有数倍的提升。StarRocks的表设计涉及到的知识点主要包括数据模型选择、分区分桶、排序键和前缀索引、列级别索引以及字段类型等等。 StarRocks的建表语句与MySQL比较相似，但也有自己的特点。我们先在StarRocks中创建一个演示用的数据库starrocks（后续所有的建表咱们都在里面进行），然后用比较规范的建表语句创建表table01。这里的建表语句我们只是先把涉及的点覆盖到，后面会逐项展开说明： mys

StarRocks建表优化全流程

Ti__iT的博客

02-22

3888

查看StarRocks版本 select current_version(); 查看状态 MySQL> SHOW PROC "/brokers"\G mysql> SHOW PROC '/backends'\G mysql> SHOW PROC '/frontends'\G StarRocks的1副本意思是仅有一份数据，三副本为共有三份数据创建表前缀索引，where条件的放在表的前三列（前两列date/int,string放在第三列），其他需要作为查询条件的字段，通

starrocks内表

最新发布

08-01

<think>嗯，用户这次想了解StarRocks内部表的特性和使用方法，特别是创建与管理方面的内容。从ta的提问方式来看，应该是个有一定数据库基础的技术人员，可能正在评估或已经在使用StarRocks。之前对话中用户提到过外部表，现在转向内部表，说明ta对StarRocks的数据存储机制有系统性了解的需求。需要特别注意区分内部表和外部表的差异，这点在引用[2]里已经明确提到过——内部表数据保存在StarRocks内部，而外部表只是元数据映射。关于内部表的创建，用户可能最关心的是四种表类型的选择。主键表适合需要频繁更新的场景，明细表适合日志类数据，聚合表能自动预聚合，更新表则针对缓慢变化的维度数据。在引用[2]的基础上，需要补充具体的使用场景说明。管理方面要强调分区和分桶这两个关键概念。分区用于数据裁剪，分桶影响查询性能，这在所有引用材料里都没细说，但确实是实际使用时的核心考量。另外索引机制也得提，Bloom Filter索引对字符串查询加速效果明显。考虑到用户后续可能遇到的问题，相关问题的设计要侧重实操：表类型选择依据、分区策略优化、性能调优方向。这些都是在真实生产环境中必然会遇到的痛点。最后注意所有技术术语都要用$...$包裹，比如$PARTITION BY$这种语法元素。示例代码要完整展示建表语句的所有关键部分，特别是容易忽略的副本数设置和存储类型声明。</think>以下是关于StarRocks内部表的特性、创建与管理方法的详细说明，结合官方文档和实践总结： --- ### **一、内部表核心特性** 1. **数据存储** 数据**完全存储在StarRocks集群内**，支持高性能查询与分析。 2. **表类型分类** 根据数据组织方式分为四类（引用[2]）： - **明细表（Duplicate Key Table）** 适合原始数据存储（如日志），支持任意维度查询。 ```sql CREATE TABLE dupe_table ( timestamp DATETIME, user_id INT, event_type VARCHAR(20) ) DUPLICATE KEY(timestamp, user_id); -- 指定排序列 ``` - **聚合表（Aggregate Table）** 预聚合数据，减少查询计算量（如SUM、MAX）。 ```sql CREATE TABLE agg_table ( date DATE, product_id INT, total_sales BIGINT SUM -- 定义聚合函数 ) AGGREGATE KEY(date, product_id); ``` - **主键表（Primary Key Table）** 支持**行级更新**（适用于CDC场景），主键唯一。 ```sql CREATE TABLE pk_table ( order_id BIGINT, status VARCHAR(20), PRIMARY KEY(order_id) -- 显式定义主键 ) DISTRIBUTED BY HASH(order_id); ``` - **更新表（Unique Key Table）** 主键覆盖更新，简化数据合并（如维度表）。 ```sql CREATE TABLE unique_table ( user_id INT, user_name VARCHAR(50) ) UNIQUE KEY(user_id); ``` 3. **分区与分桶** - `PARTITION BY`：按时间或枚举值分区，加速查询剪枝 ```sql PARTITION BY RANGE(`dt`) (START ("2023-01-01") END ("2023-12-31")) ``` - `DISTRIBUTED BY HASH()`：数据分桶到不同节点，避免数据倾斜 --- ### **二、创建与管理操作** #### **1. 建表示例（明细表）** ```sql CREATE TABLE internal_table ( dt DATE NOT NULL, user_id INT COMMENT "用户ID", cost DECIMAL(10,2) SUM NULL -- 聚合表需定义聚合函数 ) ENGINE=OLAP DUPLICATE KEY(dt, user_id) -- 明细表指定排序列 PARTITION BY RANGE(dt) ( PARTITION p2023 VALUES [('2023-01-01'), ('2024-01-01')) ) DISTRIBUTED BY HASH(user_id) BUCKETS 8 -- 分桶数建议为节点数倍数 PROPERTIES ( "replication_num" = "3", -- 副本数（高可用需≥3） "storage_medium" = "SSD" -- 存储介质 ); ``` #### **2. 关键管理命令** | **操作** | **命令示例** | |------------------|------------------------------------------------| | 查看表结构 | `DESC internal_table;` | | 修改分区 | `ALTER TABLE internal_table ADD PARTITION p2024 VALUES [("2024-01-01"), ("2025-01-01"));` | | 增加副本 | `ADMIN SET REPLICA ("replication_num" = "3")` | | 数据删除 | `DELETE FROM internal_table WHERE dt < '2023-01-01';` | | 表重命名 | `ALTER TABLE internal_table RENAME new_table;` | | 删除表 | `DROP TABLE internal_table;`（同时删除数据） | --- ### **三、最佳实践** 1. **分区选择** - 时间字段分区：按天/月分区，避免单分区过大（建议≤100GB） - 冷热分离：新分区存SSD，旧分区转HDD（通过`storage_cooldown_time`配置） 2. **分桶优化** - 分桶键选择高基数字段（如$user_id$），保证数据均匀分布 - 分桶数公式：$ \text{Bucket数量} = \text{节点数} \times \text{CPU核数} \times 2 $ 3. **索引加速** - **前缀索引**：自动为前36字节建索引（`DUPLICATE KEY`顺序影响索引效率） - **Bloom Filter索引**：对高基数字段加速等值查询 ```sql PROPERTIES ("bloom_filter_columns" = "user_id"); ``` --- ### **四、与其他组件对比** | **特性** | **内部表** | **外部表** | |------------------|-------------------------------|-------------------------------| | 数据位置 | StarRocks集群内 | 第三方系统（如MySQL、Hive） | | 数据管理 | 自动分片/副本 | 依赖外部数据源 | | 查询性能 | ⭐⭐⭐⭐⭐（列存+MPP架构） | ⭐⭐（受网络和外部源影响） | | 适用场景 | 高频分析、实时计算 | 跨源查询、数据联邦 | > 引用说明：内部表数据存储机制见StarRocks官方文档[^2]，外部表特性对比参考[^1]。 ---