MaxCompute表设计最佳实践

最新推荐文章于 2024-03-01 12:46:09 发布

数据库技术分享者

最新推荐文章于 2024-03-01 12:46:09 发布

阅读量255

点赞数

CC 4.0 BY-SA版权

文章标签：数据存储与数据库分布式系统与计算 MaxCompute

本文链接：https://blog.youkuaiyun.com/weixin_43970890/article/details/85097622

本文详细介绍了MaxCompute表设计的最佳实践，包括避免产生大量小文件的操作、根据数据划分项目空间、维度表设计、拉链表应用、数据采集表设计、日志表设计、互动明细表设计以及MaxCompute的特色功能如生命周期管理。通过合理的设计，可以优化存储和计算性能，减少资源浪费。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MaxCompute表设计最佳实践

产生大量小文件的操作

MaxCompute表的小文件会影响存储和计算性能，因此我们先介绍下什么样的操作会产生大量小文件，从而在做表设计的时候考虑避开此类操作。

使用MaxCompute Tunnel SDK上传数据，上传过程中，每commit一次就会产生一个文件。这时每个文件过小(比如几K)，并且频繁上传(比如5秒上传)一次，则一小时就会产生720个小文件，一天就会产生17280个小文件。
使用MaxCompute Tunnel SDK上传数据，create了session但是没有upload数据直接做了 commit，产生大量空目录(服务侧等同于小文件)。
使用MaxCompute Console命令行工具Tunnel命令上传时，将本地大文件切分过小，导致上传后产生文件数过多，文件过小。
通过DataHub做数据归档，Datahub 的每个shard写 MaxCompute 有两个条件:数据总量达到 64MB，commit 一次到 MaxCompute，形成一个文件。或者每隔 5 分钟一次 commit，形成一个文件。那么:开的shard数多(比如20个shard)，每个shard数据在5分钟内都远远达不到64M，比如就是几百K，就会产生大量小文件。那么一天就会产生241220=5760个小文件。
通过Dataworks等数据开发工具进行数据增量插入(insert into)到MaxCompute的表(或者表分区)里时，每个insert into都会产生一个文件，若每次insert into 10条，每天累计insert insert 10000条记录，则会产生1000个小文件。
通过阿里云DTS将数据从RDS等数据库同步到MaxCompute，DTS进行数据同步时，会创建全量表和增量表，增量表进程数据插入过程中会因为每次数据插入条数较少而commit比较完整一次数据同步，从而在增量表中造成小文件问题，比如每隔5分支执行一次同步，每次同步的数据量为10条，一天内的增量为10000条，则会产生1000个小文件。此种场景，需要在数据同步完成后进行全量极限表和增量数据表的merge。
源数据采集客户端太多，源数据通过T unnel直接进入到一个分区，每个源数据采集客户端提交一次数据，都会在同一分区下产生一个独立的文件导致产生大量小文件。
SLS 触发 FunctionCompute持续高频往MaxCompute中心接入文件，小文件流式数据进入 MaxCompute。