Maxcompute 造数据 - 方法详解

本文详细介绍了在Maxcompute中模拟数据的方法,包括构造常量小表、利用笛卡尔积构造大表以及填充随机值。通过实例展示了如何在不同业务场景下,如电信行业POC项目,创建符合需求的模拟数据,强调了造数据过程中对业务理解的重要性,以及如何通过分析业务需求来构造维度表和事实表。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.概述

造数据在一些奇怪的场合会被用到。一般我们是先有数据才有基于数据的应用场合,但是反过来如果应用拿到另外一个场景,没有数据功能是没有方法演示的。
一般较为真实的数据,脱敏后就可以应用在功能测试和演示的场合。但是数据脱敏其实也满复杂(脱敏过重数据就用不了了,过低数据又泄漏了),所以自己模拟一些数据,似乎更安全。
我个人一般遇到的造数据场景有两个。第一,是有合作伙伴或者同事咨询一个SQL处理数据的方法,没有数据。第二,就是有时候会有POC的一些场景,没有提供真实模拟数据,需要自己模拟。

2.分类

如果是单一的业务场景的数据模拟,很多时候单表就可以满足了。但是要是模拟某个业务场景,或者POC测试场景则要模拟一个业务系统中的相互关联的多张表。
造数据,一般会都会有些用户需求,会有明确的业务场景的描述。也会有一些其他要求,例如:表的记录数、行的存储、字段的生成规则、字段的值域、字段的枚举值,还可能会给少量真实的数据。

2.1. 一个表

单独造一张表的数据可能非常简单,比如我们日常测试一个函数,测试一段SQL的JOIN逻辑。也可能非常复杂,构造一个表,也就相当于构造一个业务系统。

2.2. 一个业务系统

业务系统相对于单表来说只是表的数量增加了。而且,因为业务系统的表间是存在主外键关系的,所以,需要先造代码表(维度表),然后再造业务表(事实表)。

3.方法

造模拟数据的方法分为两个阶段,第一阶段是构造一个小表,产生代码表(维度表),然后第二阶段利用笛卡尔积快速乘出需要的数据量。在这其中,列的数据值填充可以使用随机函数生成。

3.1. 构造一个常量小表

Maxcompute最简单的造数据的方法是insert into values语句,这一般也是我最常用的。在不支持这个语句之前的更早的版本,使用的是union all的方法。如果不想实际写入数据到,则可以使用from values 和 with 表达式。

示例1:通过insert … values操作向特定分区内插入数据。
命令示例如下:

--创建分区表srcp。
create table if not exists srcp (key string,value bigint) partitioned by (p string);

--向分区表srcp添加分区。
alter table srcp add if not exists partition (p='abc');

--向表srcp的指定分区abc中插入数据。
insert into table srcp partition (p='abc') values ('a',1),('b',2),('c',3);

--查询表srcp。
select * from srcp where p='abc';

--返回结果。
+------------+------------+------------+
| key        | value      | p          |
+------------+------------+------------+
| a          | 1          | abc        |
| b          | 2          | abc        |
| c          | 3          | abc        |
+------------+------------+------------+

示例2:通过values table操作插入数据。

命令示例如下:
--创建分区表srcp。
create table if not exists srcp (key string,value bigint) partitioned by (p string);

--向表srcp中插入数据。
insert into table srcp partition (p) select concat(a,b), length(a)+length(b),'20170102' from values ('d',4),('e'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值