大数据技术体系一二级架构
前文提到过,所有采用分布式理论解决海量数据的采、存、算、查的技术都可以称为大数据技术。所以,大数据技术体系一级架构一般包含以上几个重要模块,可以看出,基本是围绕业务更好的用数来发展的。
企业构建大数据技术体系时,会在一级架构的范围内,结合业务需要和未来规划目标,选择部分技术组件进行落地,下图罗列了各个一级架构下的核心技术组件。构建初期,一般会通过CDH或HDP的产品套件,来完成数据采集(Sqoop、Flume)、数据存储(HDFS)、资源调度(Yarn)、分布式计算引擎(hive、spark)、集群管理(Ambari/CM)、安全能力(Ranger、kerberos、ldap)的快速引入,这时就已经具备基本的大数据服务能力。
接下来,企业需要根据数据需求、完成数据架构的设计,在数据架构落地过程中,会对技术组件进行深度使用(结合组件的特性进行开发、落地),这时,会出现以下几个阶段:
1.0阶段:完全基于离线的数据处理
这个阶段一般以BI离线分析为主ÿ