使用split_size优化的ODPS SQL的场景

本文介绍了如何通过调整ODPS SQL的split_size参数来优化Map Instance的处理,特别是在单记录数据存储较少和MapJOIN实现笛卡尔积的场景下。案例展示了split_size优化前后执行时间和资源利用率的变化,强调了优化对于提升Job执行效率的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先有两个大背景需要说明如下:
说明1:split_size,设定一个map的最大数据输入量,单位M,默认256M。用户可以通过控制这个变量,从而达到对map端输入的控制。设置语句:set odps.sql.mapper.split.size=256。一般在调整这个设置时,往往是发现一个map instance处理的数据行数太多。

说明2:小文件越多,需要instance资源也越多,MaxCompute对单个Instance可以处理的小文件数限制为120个,如此造成浪费资源,影响整体的执行性能(文件的大小小于块Block 64M的文件)。

场景一:单记录数据存储太少

原始Logview Detail:

可以发现Job只调起一个Map Instance,供处理了156M的数据,但这些数据共有5千多万的记录(单记录平均3个byte),花费了25分钟。
此外,从TimeLine看可以发现,整个Job耗费43分钟,map占用了超过60%的时间。故可对map进行优化。

优化手段:调小split_size为16M

优化之后的logview:

### 使用 CASE 语句在 ODPS SQL 中修改字符串格式的日期 在 MaxCompute (原名 ODPS) SQL 中,可以利用 `CASE` 语句结合字符串处理函数来实现对 `string` 类型日期的格式化操作。虽然 MaxCompute 不支持直接通过内置函数完成复杂的日期格式转换,但可以通过逻辑判断和字符串拼接的方式达到目标。 以下是具体方法: #### 方法描述 假设原始数据中的日期字段名为 `ACTION_DATE`,其存储形式为 `YYYYMMDD`(即字符串类型)。如果希望将其转换为目标格式 `YYYY-MM-DD` 或其他自定义格式,则可通过以下方式实现: 1. **解析输入字符串** 将 `ACTION_DATE` 字符串按固定位置拆分为年、月、日部分。 2. **重新组合成新格式** 使用字符串连接功能将各部分按照所需格式重组。 3. **应用条件判断** 若存在多种可能的输入格式或异常情况,可借助 `CASE WHEN ... THEN ... ELSE ... END` 进行分类处理。 #### 示例代码 下面是一个完整的示例代码片段,展示如何使用 `CASE` 和字符串函数完成上述需求: ```sql SELECT ACTION_DATE, -- 转换逻辑:当 ACTION_DATE 符合 YYYYMMDD 格式时执行转换 CASE WHEN LENGTH(ACTION_DATE) = 8 AND REGEXP_LIKE(ACTION_DATE, '^[0-9]{8}$') THEN CONCAT(SUBSTR(ACTION_DATE, 1, 4), '-', SUBSTR(ACTION_DATE, 5, 2), '-', SUBSTR(ACTION_DATE, 7, 2)) ELSE NULL -- 对于不符合预期格式的数据返回 NULL END AS FORMATTED_DATE FROM your_table; ``` 此查询中涉及的关键点如下: - `SUBSTR` 函数用于提取子字符串[^2]。 - `CONCAT` 函数负责将多个字符串片段合并为一个新的字符串。 - 正则表达式匹配 (`REGEXP_LIKE`) 可验证输入是否符合特定模式。 - 当前未提及正则表达式的引用信息,因此补充说明该特性属于标准 SQL 扩展范围内的工具集。 对于更复杂的情况,比如需要区分不同长度或其他特殊字符分隔符的情形,也可以扩展 `CASE` 条件分支的数量以覆盖更多场景。 --- #### 注意事项 尽管本方案能够有效解决大部分常见问题,但在实际开发过程中仍需注意以下几点: - 输入数据质量直接影响最终结果准确性;建议提前清洗脏数据并设定合理默认值。 - 性能考量方面,过多嵌套层次可能导致运行效率下降,在大规模数据集中应谨慎评估影响程度。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值