使用split_size优化的ODPS SQL的场景

本文介绍使用split_size优化ODPS SQL的场景。先说明了split_size可控制map端输入,小文件多会浪费资源影响性能。接着阐述两个场景,一是单记录数据存储少,调小split_size可增加Map Instance、减少执行时间;二是用MapJoin实现笛卡尔积,调低split_size能降低单一map生成数据量和整体耗时,但未从根本解决问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用split_size优化的ODPS SQL的场景

首先有两个大背景需要说明如下:
说明1:split_size,设定一个map的最大数据输入量,单位M,默认256M。用户可以通过控制这个变量,从而达到对map端输入的控制。设置语句:set odps.sql.mapper.split.size=256。一般在调整这个设置时,往往是发现一个map instance处理的数据行数太多。

说明2:小文件越多,需要instance资源也越多,MaxCompute对单个Instance可以处理的小文件数限制为120个,如此造成浪费资源,影响整体的执行性能(文件的大小小于块Block 64M的文件)。

场景一:单记录数据存储太少

image

原始Logview Detail:

image

可以发现Job只调起一个Map Instance,供处理了156M的数据,但这些数据共有5千多万的记录(单记录平均3个byte),花费了25分钟。
此外,从TimeLine看可以发现,整个Job耗费43分钟,map占用了超过60%的时间。故可对map进行优化。

优化手段:调小split_size为16M

image

优化之后的logview:

image

优化后,可以发现,Job调起了7个Map Instance,耗时4分钟;某一个Map处理了27M的数据,6百万记录。(这里可以看出set split_size只是向Job提出申请,单不会严格生效,Job还是会根据现有的资源情况等来调度Instance)因为Map的变多,Join和Reduce的instance也有增加。整个Job的执行时间也下降到7分钟。

场景二:用MapJoin实现笛卡尔积

image

原始logview:

image

可以发现,Job调起了4个Map,花费了3个小时没有跑完;查看详细Log,某一个Map因为笛卡尔的缘故,生成的数据量暴涨。
综合考虑,因为该语句使用Mapjoin生成笛卡尔积,再筛选符合条件的记录,两件事情都由map一次性完成,故对map进行优化。

策略调低split_size
优化后的logview:

![]image

优化后,可以看到,Job调度了38个map,单一map的生成数据量下降了,整体map阶段耗时也下降到37分钟。
回头追朔这个问题的根源,主要是因为使用mapjoin笛卡尔积的方式来实现udf条件关联的join,导致数据量暴涨。故使用这种方式来优化,看起来并不能从根本解决问题,故我们需要考虑更好的方式来实现类似逻辑。

### 使用 CASE 语句在 ODPS SQL 中修改字符串格式的日期 在 MaxCompute (原名 ODPS) SQL 中,可以利用 `CASE` 语句结合字符串处理函数来实现对 `string` 类型日期的格式化操作。虽然 MaxCompute 不支持直接通过内置函数完成复杂的日期格式转换,但可以通过逻辑判断和字符串拼接的方式达到目标。 以下是具体方法: #### 方法描述 假设原始数据中的日期字段名为 `ACTION_DATE`,其存储形式为 `YYYYMMDD`(即字符串类型)。如果希望将其转换为目标格式 `YYYY-MM-DD` 或其他自定义格式,则可通过以下方式实现: 1. **解析输入字符串** 将 `ACTION_DATE` 字符串按固定位置拆分为年、月、日部分。 2. **重新组合成新格式** 使用字符串连接功能将各部分按照所需格式重组。 3. **应用条件判断** 若存在多种可能的输入格式或异常情况,可借助 `CASE WHEN ... THEN ... ELSE ... END` 进行分类处理。 #### 示例代码 下面是一个完整的示例代码片段,展示如何使用 `CASE` 和字符串函数完成上述需求: ```sql SELECT ACTION_DATE, -- 转换逻辑:当 ACTION_DATE 符合 YYYYMMDD 格式时执行转换 CASE WHEN LENGTH(ACTION_DATE) = 8 AND REGEXP_LIKE(ACTION_DATE, '^[0-9]{8}$') THEN CONCAT(SUBSTR(ACTION_DATE, 1, 4), '-', SUBSTR(ACTION_DATE, 5, 2), '-', SUBSTR(ACTION_DATE, 7, 2)) ELSE NULL -- 对于不符合预期格式的数据返回 NULL END AS FORMATTED_DATE FROM your_table; ``` 此查询中涉及的关键点如下: - `SUBSTR` 函数用于提取子字符串[^2]。 - `CONCAT` 函数负责将多个字符串片段合并为一个新的字符串。 - 正则表达式匹配 (`REGEXP_LIKE`) 可验证输入是否符合特定模式。 - 当前未提及正则表达式的引用信息,因此补充说明该特性属于标准 SQL 扩展范围内的工具集。 对于更复杂的情况,比如需要区分不同长度或其他特殊字符分隔符的情形,也可以扩展 `CASE` 条件分支的数量以覆盖更多场景。 --- #### 注意事项 尽管本方案能够有效解决大部分常见问题,但在实际开发过程中仍需注意以下几点: - 输入数据质量直接影响最终结果准确性;建议提前清洗脏数据并设定合理默认值。 - 性能考量方面,过多嵌套层次可能导致运行效率下降,在大规模数据集中应谨慎评估影响程度。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值