1. 任务背景
- 任务说明:公司 saas 数据分析类产品,客户需要把行为数据回传到客户指定文件系统中(oss)
- 周期:T+1
- 数据格式:parquet
- 数据范围:部分表全量,部分表增量
- 其他要求:
需要历史数据,部分应用部分周期需要全量一个文件,部分历史需要每天一个文件,新的数据 T+1 。
每个文件上传成功后需要一个状态空文件 _SUCCESS 文件
2. 任务分析
a. 分析
- 本数据平台 impala+kudu+hive 架构,impala-shll可导出 csv文件。
注:如果系统简单,要求简单,也可以选择数据存成hive表形式,直接文件可parquet文件。这里选择用 impala- shell 导出方式是客户有复杂的要求等等。
- csv 转 parquet ,并且 parquet文件需要携带 schema 信息。
- 脚本需要支持按某一时间段的每天处理。
b. 方案
(1)python 做脚本
(2)impala-shell 命令方式导出符合要求的csv文件
(3)pandas 和 pyarraow.parquet 结合操作csv
(4)发送标准文件到 OSS
欢迎关注,一起学习

最低0.47元/天 解锁文章
1138

被折叠的 条评论
为什么被折叠?



