大数据与机器学习：实践方法与行业案例.2.6　本章小结

转载于 2017-05-02 22:47:00 发布 · 132 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/82665

文章标签：

#人工智能 #shell #大数据

本文介绍了数据闭环概念及其核心组成部分——数据缓冲区的作用与实现方式。重点探讨了数据批量操作技术、ETL作业规范及作业调度等内容，为构建高效稳定的数据闭环提供了实战指导。

2.6　本章小结

本章围绕数据体系提出了数据闭环的概念，对数据闭环的特征进行了描述，并且进一步介绍了构建数据闭环所涉及的方法和技术。

这里着重介绍了在数据闭环中扮演重要作用的“数据缓冲区”的设立理念和实现方式。通过设立数据缓冲区，可以实现系统解耦，让数据闭环具备良好的扩展性，让公司组织间职责更加分明，使数据环境更加安全等。

数据缓冲区中涉及的数据批量导出/导入技术，需要使用到各个RDMS系统的批量操作命令。另外在大数据平台中，需要使用hadoop shell和hive shell脚本来实现批量操作，对于Hbase，则提供了Java实现的bulk load批量导入方式。

ETL作业为数据闭环中定义数据流转方式的环节。为了实现ETL作业的自动化运行和监控，需要引入ETL作业规范：命名规范和日志规范。

作业调度则是保证ETL作业能够实现自动化的手段，监控和预警则进一步保证了ETL作业能够正常运行。

第3章将根据这两章提出的数据理念，通过实战的方式完成数据闭环中关键环节的构建。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。