大数据（1f）集群规划+版本选择（持续更）

原创已于 2022-02-03 17:34:59 修改 · 773 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#hadoop #big data #运维

于 2021-04-09 09:26:27 首次发布

Hadoop 专栏收录该内容

24 篇文章

订阅专栏

本文详细介绍了大数据集群的两种规划方式：非高可用与高可用集群，并列举了所涉及的技术及其版本。同时，提供了数据项目技术选型时应考虑的因素及版本选择策略。

文章目录

1、集群规划
- 1.1、非高可用集群规划
- 1.2、高可用集群规划
2、框架版本
3、数据项目技术选型策略
- 3.1、技术选型策略
- 3.2、版本选择策略

1、集群规划

1.1、非高可用集群规划

软件名	服务名	hadoop100	hadoop101	hadoop102
Hadoop（HDFS）	DataNode	1	1	1
Hadoop（HDFS）	NameNode	1
Hadoop（HDFS）	SecondaryNameNode		1
Hadoop（YARN）	ResourceManager			1
Hadoop（YARN）	NodeManager	1	1	1
ZooKeeper	QuorumPeerMain	1	1	1
MySQL		1
HIVE		1
Spark		1
Kafka	Kafka	1	1	1
Flume		1	1	1
Sqoop		1
HBase	HMaster	1
HBase	HRegionServer	1	1	1
Solr	jar	1	1	1
Atlas	Atlas			1

1.2、高可用集群规划

软件名	服务名	hadoop100	hadoop101	hadoop102
Hadoop（HDFS）	DataNode	1	1	1
Hadoop（HDFS）	NameNode	1	1
Hadoop（ZKFC）	DFSZKFailoverController	1	1
Hadoop（HDFS）	JournalNode	1	1	1
Hadoop（YARN）	ResourceManager	1		1
Hadoop（YARN）	NodeManager	1	1	1
ZooKeeper	QuorumPeerMain	1	1	1
MySQL		1
HIVE		1
Spark		1
Kafka	Kafka	1	1	1
Flume		1	1	1
Sqoop				1
Solr	jar	1	1	1
Atlas	Atlas			1

2、框架版本

名称	版本	下载地址
CentOS	7-5
JDK	1.8	同下面HIVE
Hadoop	3.1.3	同下面HIVE
HIVE	3.1.2	https://download.youkuaiyun.com/download/Yellow_python/13782524
MySQL	5.7.32	https://dev.mysql.com/downloads/mysql/
MySQL的JDBC	5.1.49	https://dev.mysql.com/downloads/connector/j/
ZooKeeper	3.5.7	http://archive.apache.org/dist/
Spark	3.0.0	同上ZooKeeper
Kafka	2.7.0	同上ZooKeeper
Flume	1.9	同上ZooKeeper
Sqoop	1.4.7	同上ZooKeeper
Scala	2.12.13	https://www.scala-lang.org/download/
HBase	2.4.9
Atlas	2.1.0	https://download.youkuaiyun.com/download/Yellow_python/79106345
Solr	7.7.3

3、数据项目技术选型策略

3.1、技术选型策略

考虑因素	说明	例如
业务需求	离线数仓、实时数仓	离线用HIVE，实时用Flink
数据量	数据量大小、数据变化量大小	小数据用MySQL，大数据用Hadoop
数据种类	关系型数据、非关系型数据结构化数据、非结构化数据	文章可存ElasticSearch 社交网络可存Neo4j
技术成熟度	技术越成熟，bug越少，方案越完善	在人工智能领域，Python技术体系比Java技术体系更成熟
技术热度	热度越高，技术资源越多	冷门技术出bug了，可能找不到解决办法冷门技术的翻译文档不多
学习难度	难度越高，学习时间越长	Keras比TensorFlow简单两个框架都能解决问题的情况下优先选简单的
运维成本	有些技术开发快但维护难	Scala的开发效率高于Java，但代码可读性更低吧？
金钱	有的软件要付费

3.2、版本选择策略

选稳的：Java8虽不是最新，但是很稳
第三个数字尽量选大的，比如Spark的3.0.2版本解决了3.0.1版本的一些bug

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小基基o_O 您的鼓励是我创作的巨大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。