大数据云平台
涉及范围
- Linux系统环境搭建
- Hadoop + Spark + Hbase 平台部署
- Hbase表结构设计
- 数据存储及查询接口的设计与实现
- 基于Hbase的数据仓库设计
总体设计
通过整合资源,充分利用现有硬件基础设施,结合云计算大数据的最新趋势,对本平台设计,力争满足应用需 要。采用云计算技术,结合创新建设模式,搭建标准统一、功能完善、系统稳定、安全可靠、纵横互通、集中统一、运行速度显著提升的云计算平台。
---------------------------------------- 云平台总体拓扑结构图
大数据中心包含数据接收与处理的中间件、查询接口、原始数据Hbase库及后台数据仓库。
数据接收与处理中间件主要完成数据的验证与导入,并提供标准化的数据导入接口。查询接口层提供标准的输入输出查询格式。原始数据库与后台数据仓库为查询与数据分析提供支持。
平台部署
1.Hadoop平台
Hadoop提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源, Hadoop集群可以扩展到上千台服务器。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。
2.HDFS
HDFS分布式文件系统:
(1)有较强的容错性
(2)可在x86平台上运行,减少总体成本
(3)可扩展,能构建大规模的应用