最近两个月一直在做基础平台搭建方面的工作,总体分为基于hive的离线分析、基于storm的流式分析、基于hbase+solrcloud的大数据搜索三个子平台,下面简单介绍三个子平台的设计及搭建过程及简单的测试,涉及Linux系统方面的配置、Java环境的配置\MySQL\ganglia\NTP的安装、HDFS、YARN、Zookeeper、Hbase、Kafka、sqoop、Hive、Flume、Solrcloud等大数据组件的安装配置,由于配置参数及相关测试代码比较多,因此不在本文中一一列出,整个集群的配置、优化文档及相关的整理代码已经放到qq群中,有兴趣的用户可以一起相互交流,qq群号:301968783301
1、基于hive的离线分析平台

本文介绍了作者近期构建大数据基础平台的经验,涵盖Hive离线分析、Storm流式处理和Hbase+Solrcloud搜索三大子平台。详细讨论了相关组件如HDFS、YARN、Zookeeper的安装配置,并提到相关测试与集群配置文档已分享至指定QQ群。
最低0.47元/天 解锁文章
985





