ODPS存储治理的几种手段

本文详细介绍了ODPS的存储治理,包括生命周期管理、文件格式优化(如AliOrc)、数据重排及其自动化、归档策略与测试、冷备方案以及巡检机制。通过这些方法,可以有效管理和降低成本,提高数据压缩率和存储效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、生命周期管理

(LIFECYCLE),指表(分区)数据从最后一次更新时间算起,在经过指定的时间后没有变动,则此表(分区)将被ODPS自动回收。这个指定的时间就是生命周期。

需要注意的是,生命周期到期的检测并不是实时进行的,而是每天一次定时启动,所以可能存在实际存活时间超过生命周期的情况,但最多不超过48小时,详情见下官方文档解释。

注意:生命周期回收都是每天定时启动,扫描全量分区,扫到的时刻,Last modify time超过 lifecycle指定的时间才回收。
假设某个分区表生命周期为1天,其中一个分区最后一次数据被修改的时间是17号15点多写的,如果18号的回收扫描在15点前扫到这个表(不到一天),那就不会回收17号这个分区。19号回收扫描时才发现这个表的这个分区Last modify time超过 lifecycle指定的时间才会回收。

除了一些特殊需求的表和维表外,理应为所有表设定生命周期,我们建议的生命周期设置方式见下表:

场景 建议生命周期
原数据表 下游已完整解析 7天
原数据表 下游部分解析 按业务需求保存
日增量di表 可再生 1~3天
日增量di表 不可再生 按业务需求保存
全量df表 可再生 3~7天
全量df表 不可再生
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值