《大数据之路:阿里巴巴大数据实践》笔记——离线开发篇

数据开发平台

统一的计算平台( MaxCompute )、统一的开发平台( D2 等相关平 台和工具)、统一的数据模型规范和统一的数据研发规范

统一计算平台

MaxCompute特点

计算性能高且更加普惠
集群规模大且稳定性高
功能组件非常强大(SQL、MR、图、Spark等)
安全性高

统一开发平台

D2

在云端(D2)是集成任务开发、调试及发布,生产任务调度及大数据运维数据权限申请及管理等功能的一站式数据开发平台 并能承担数据分析工作台 的功能。

SQLSCAN

SQLSCAN 将在任务开发中遇到的各种问题,如用户编写的质量差、性能低、不遵守规范等,总结后形成规则,并通过系统及研发流程保障,事前解决故障隐患,避免事后处理。

DQC

主要有数据监控和数据清洗两大功能

在彼岸

数据测试的典型测试方法是功能测试,主要验证目标数据是否符合预期。除满足数据测试的数据对比组件之外,还有数据分布和数据脱敏组件。

任务调度系统

用Crontab的问题

①各任务之间的依赖基于执行时间实现,容易造成前面的任务未结束或失败而后面的任务已运行;②任务难以并发执行,增加了整体的处理时间:③无法设置任务优先级;④任务的管理维护很不方便,无法进行执行效果分析等。

调度引擎工作原理

基于以上两个状态机模型原理,以事件驱动的方式运行,为数据任务节点生成实例,并在调度树中生成具体执行的工作流。

执行引擎工作原理

特点及应用

1 调度配置(输入输出配置和自动识别相结合)
2 定时调度(设定任务的运行时间)
3 周期调度(可按照小时、日等时间周期运行)
4 手动运行(数据修复 或 临时操作)
5 补数据(开发完后初始化,比如补近一年数据)
6 基线管理(按优先级分类管理,保证重点数据优先产出)
7 监控报警(对出错、超时的节点,及可能超时的基线等,设置电话、短信、邮件等告警)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值