17、云数据平台的数据处理与存储组织

云数据平台的数据处理与存储组织

1. 数据处理基础

数据处理任务通常可分为两大类:常见数据处理步骤和特定业务逻辑步骤。常见数据处理步骤适用于所有数据源的数据,例如将文件格式转换为统一标准,解决传入数据与现有数据之间的模式差异,对数据进行去重以及应用标准质量检查(确保邮政编码字段有效、日期格式统一等)。

而每个分析用例都需要特定于该用例的一组转换和验证。例如,为营销活动效率报告准备数据集时,可能只包含产生一定展示次数的活动。云数据平台的一个关键优势在于,能够为数百个潜在报告实现和执行这些自定义验证和转换,且每个报告都在独立环境中运行,无需担心共享计算或存储资源。

以下是数据处理的常见步骤列表:
- 转换文件格式为统一标准
- 解决模式差异
- 数据去重
- 应用标准质量检查
- 执行特定业务逻辑转换

2. 处理层的独立设计

在数据平台架构中,将存储与计算分离是分层云数据平台设计的关键原则,它带来了可扩展性、成本节约、灵活性和可维护性。然而,在数据湖部分进行计算还是在数据仓库中进行计算,一直存在争议。

以下是使用Spark在数据湖进行处理和使用SQL在数据仓库进行处理的优缺点对比表格:
| 对比项 | 在数据湖使用Spark处理 | 在数据仓库使用SQL处理 |
| ---- | ---- | ---- |
| 灵活性 | 输出不仅可用于数据仓库,还可交付给其他用户或系统 | 输出通常仅限于数据仓库使用 |
| 开发者生产力 | 开发者掌握后,可利用其强大功能和灵活的测试框架及库加速代码交付 | SQL受欢迎,容易找到相关人才,能更

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值