CDH6.3.2 组件优化

最新推荐文章于 2024-05-14 08:40:42 发布

原创

最新推荐文章于 2024-05-14 08:40:42 发布 · 785 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #大数据 #hdfs #hive

1 hdfs开启HA 且hive启用连接改为HA模式

1.进入hdfs组件
2.hdfs组件中选择操作按钮
3.操作下拉列表中选择 启用high availability
4.配置service名称
5.等待启用完成
6.进入hive组件
7.hive组件选择操作按钮
8.操作下拉列表中选择更新HiveMeTastore NameNode schema
9.等待完成

2 yarn开启HA

1.进入yarn组件
2.yarn组件中选择操作按钮
3.操作下拉列表中选择 启用high availability
4.等待启用完成

3 配置域名访问

在阿里云环境下Hadoop集群必须用域名访问，不能用IP访问。

进入HDFS的configuration界面

开启如下配置dfs.client.use.datanode.hostname

4 设置物理核和虚拟核占比

一般物理核和虚拟核对比值为1:1或1:2

进入yarn配置，搜索yarn.nodemanager.resource.cpu-vcores修改配置，每台机器物理核2核虚拟成4核

5 修改单个容器下最大cpu申请资源

修改yarn.scheduler.maximum-allocation-vcores参数调整4核

6 设置每个任务容器内存大小和单节点大小

将每个任务容器默认大小从1G调大至4G，修改yarn.scheduler.maximum-allocation-mb调整每个任务容器内存所需大小

根据当前集群环境下每个节点的物理内存,修改yarn.nodemanager.resource.memory-mb调整每个节点内存所需大小

7 关闭Spark动态分配资源参数

关闭spark.dynamicAllocation.enabled参数，否则分配的资源不受控制

8 修改HDFS副本数和权限检查配置

修改dfs.re

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Seeking007

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

CDH6.3.2大数据集群生产环境安装(八)之各组件参数调优，yarn参数调优，hdfs参数调优等

nhm_lxy的专栏

04-11

646

CDH6.3.2大数据集群生产环境安装(八)之各组件参数调优，yarn参数调优，hdfs参数调优等

CDH参数优化

weixin_41367158的博客

03-01

319

表示该nodemanager节点上YARN可使用的物理内存总量（给150G）注：hive客户端和HiveServer2均需配置。cpu 88核内存250G。

1 条评论您还未登录，请先登录后发表或查看评论

CDH性能调优精髓，CDH热点问题分析

10-14

CDH性能调优，CDH热点问题分析，安装注意事件

CDH优化大全

MDZ_1122333322的博客

07-31

798

写数据时，在场景允许的情况下，最好使用Put List的方式，可以极大的提升写性能。设置参数的路径如下：在CDH Manager页面中，选择“服务管理 > HDFS > 服务配置”，将“参数类别”设置为“全部配置”，并在搜索框中输入参数名称。在CDH Manager系统中，选择“服务管理 > HDFS > 服务配置”，“参数类别”类型设置为“全部配置”。在CDH Manager页面中，选择“服务管理 > HDFS > 服务配置”，将“参数类别”设置为“全部配置”，并在搜索框中输入参数名称。

cdh之调整YARN（调优yarn 生产必做优化项）004

weixin_33788244的博客

03-26

1882

2019/3/26 星期二调整YARN本主题仅适用于YARN群集，并介绍如何为群集调整和优化YARN。注意：下载Cloudera YARN调整电子表格以帮助计算YARN配置。有关简短视频概述，请参阅调整YARN应用程序。概观此概述提供YARN群集的抽象描述和YARN调整的目标。 YARN群集由主机组成。主机提供内存和CPU资源。 vcore或虚拟核心是主机CPU的使用份额。调整YARN主要包...

适配CDH6.3.2的Spark3.2.2

08-16

Spark3.2.2是Apache Spark的一个重要版本，它提供了许多新特性和性能优化，而适配CDH6.3.2则意味着该版本的Spark已经经过了与Cloudera Data Hub (CDH) 6.3.2的兼容性验证。CDH是一个流行的Hadoop发行版，包含了...

cdh6.3.2 集成 Phoenix

02-08

CDH 6.3.2是Cloudera公司发布的基于Apache Hadoop的一个特定版本，它已经经过优化，能够很好地支持和兼容各种Hadoop生态中的组件。Phoenix作为HBase的SQL接口，同样需要与Hadoop及HBase版本匹配才能确保正常运行。在...

hive2.1.1-cdh6.3.2

05-08

2. **hive-exec-2.1.1-cdh6.3.2.jar**：这个文件包含了Hive执行引擎的核心库，用于处理查询解析、优化、计划生成以及实际的数据处理任务。它是Hive服务端的一部分，通常在Hive服务器上运行，而非客户端。 3. **hive...

CDH6.3.2版本hive2.1.1修复HIVE-14706后的jar包

最新发布

11-22

在CDH6.3.2版本的Hive2.1.1中，就曾经存在一个影响字段级血缘追踪能力的问题，即HIVE-14706。字段级血缘关系对于数据仓库的维护和优化至关重要。它允许用户追溯数据的来源，了解数据的加工过程，并在数据质量问题...

CDH各组件的配置及优化

Sen的博客

02-26

2290

CDH各组件的配置及优化 Oozie-Hue 的配置 Oozie 安装好之后，启动web界面会看到如下图：下载Ext Js 依赖：http://archive.cloudera.com/gplextras/misc/ wget http://archive.cloudera.com/gplextras/misc/ext-2.2.zip unzip ext-2.2.zip cp -r ext-2.2 /var/lib/oozie/ cd /var/lib/oozie/ chown -R oozie:oozi

CDH大数据环境优化.docx

08-03

1.3.1 数据块优化 dfs.blocksize = 128M 文件以块为单位进行切分存储，块通常设置的比较大（最小6M，默认128M）,根据网络带宽计算最佳值。 块越大，寻址越快，读取效率越高，但同时由于MapReduce任务也是以块为最小单位来处理，所以太大的块不利于于对数据的并行处理。 一个文件至少占用一个块（如果一个1KB文件，占用一个块，但是占用空间还是1KB） 我们在读取HDFS上文件的时候，NameNode会去寻找block地址，寻址时间为传输时间的1%时，则为最佳状态。 目前磁盘的传输速度普遍为100MB/S 如果寻址时间约为10ms，则传输时间=10ms/0.01=1000ms=1s 如果传输时间为1S，传输速度为100MB/S，那么一秒钟我们就可以向HDFS传送100MB文件，设置块大小128M比较合适。 如果带宽为200MB/S，那么可以将block块大小设置为256M比较合适。

CDH5.14.0安装配置优化文档。

11-05

本人自己的CDH5.14.0的安装记录，保存LINUX配置，MYSQL安装，所有过程记录，以及优化记录。

CDH性能优化（参数配置）

Maynor的博客

05-09

1916

CDH常用性能优化

cdh6.3.2配置Hive on Spark

benpaodexiaowoniu的博客

05-03

6336

环境：戴尔xps15（32G内存、1T固态、外接雷电3接口的三星1T移动固态、WD Elements的4T外接机械硬盘）win10三台Centos7虚拟机用于测试cdh6.3.2集群（免费的社区版的最高版本）以及自编译phoenix5.1.0、flink1.10.0、elasticsearch6.6.0等各源码。首先，该集群试用企业版功能到期后，无法启动Reports Manager角色（见...

CDH大数据平台优化---操作系统优化

wjandy0211的博客

10-16

1121

在安装cdh大数据平台之前，为了得到更高的效率，需要从操作系统层面做一些简单的优化。优化主要有以下几点： 1.Disable the tuned Service systemctl stop tuned systemctl disable tuned 2.Disabling Transparent Hugepages echo never > /sys/kernel/mm/t...

CDH优化(收藏篇)

ytp552200ytp的博客

08-21

1791

目录 1 测试环境参考方案 1.0 资源：集群服务安排 1.1 优化：Cloudera Management 1.2 优化：Zookeeper 1.3 优化：HDFS 1.4 优化：YARN + MapReduce 1.5 优化：Kafka 1.6 优化：HBase 1.7 优化：Hive 1.8 优化：Oozie、Hue、Solr、Spark 2 线上集群参考方案 2.0 资源：集群服务安排 2.1 优化：Cloudera Management 2.2 优化：Zookeepe.

2024年最新CDH6(1)，【性能优化实战

2301_82244122的博客

05-14

1547

CDH 小版本#CDH大版本CDH_MIN=5CDH_MAX=6。

spark配置速查

dinl_vin的博客

09-02

1207

配置项五花八门?那就整理一下! * CPU相关 1. spark.cores.max 集群分配给spark的最大CPU数 2. spark.executor.cores Executor内划分的CPU- Core，一般是2~4个比较合适 3.spark.task.cpus 执行每个Task的CPU数量，一般都是1不用动 4. spark.default.parallelism 参数说明：该参数用于设置每个stage的默认task数量。这个参数极为重要，如果不设置可能会直接影响你的Spark作业性能。参数

CDH6.2调优总结

AwaysLine

02-08

1494

集群搭建完成后，性能调优是必不可少的，调优分为硬件调优、组件调优、任务调优，本文档将这三部分调优的内容进行穿插讲解，是最全面的大数据调优文档，用了的都说爽，非常 nice ！！！