hadoop_随笔二_参数

最新推荐文章于 2022-05-26 11:06:49 发布

weixin_30470857

最新推荐文章于 2022-05-26 11:06:49 发布

阅读量129

点赞数

CC 4.0 BY-SA版权

文章标签：大数据

原文链接：http://www.cnblogs.com/xiaoliwm/p/10119483.html

本文详细介绍了Hadoop系统中关键配置参数的作用与优化建议，包括datanode上用于处理RPC的线程数、HTTPserver上的线程数、文件副本数、数据block大小及mapreduce中间结果存储路径等，为Hadoop集群的性能调优提供了实用指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1） dfs.datanode.handler.count ：

datanode上用于处理RPC的线程数。默认为3，较大集群，可适当调大些，比如8。需要注意的是，每添加一个线程，需要的内存增加。

2）tasktracker.http.threads：

HTTP server上的线程数。运行在每个TaskTracker上，用于处理map task输出。大集群，可以将其设为40~50

3）dfs.replication ：

文件副本数，通常设为3，不推荐修改

4）dfs.block.size：

HDFS中数据block大小，默认为64M

5）mapred.local.dir：

运行 mapreduce 中间结果存储处

转载于:https://www.cnblogs.com/xiaoliwm/p/10119483.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30470857

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

从几个角度看hadoop相关参数优化

云计算、分布式架构、K8S、大数据、机器学习、搜索、推荐、广告

12-31

2067

HDFS文件系统调优 1、系统角度存储方式，NameNode采用raid1+0，DataNode采用磁盘组JBOD方式在顺序读文件的场景中，比如mapreduce，可以调整文件系统预读缓存的大小。文件挂载设置noaptime、nodiratime，提升文件系统的性能 2、hdfs的参数优化

配置Eclipse的hadoop-eclipse-plugin.jar(自学随笔)

happy_joker的博客

10-23

1877

1.在hadoop官网中找到hadoop对eclipse的支持包进行下载（有些版本hadoop自带支持包路径:/hadoop/contrib 中） 2.将下载好的.jar文件复制到eclipse的plugins文件夹下 3.打开eclipse（如已经打开，请重启），菜单栏 Window >> Preferences >> Hadoop Map/Reduce 选择Hadoop的安装路径 4

参与评论您还未登录，请先登录后发表或查看评论

hadoop随记

一直在路上的求知人。

03-15

1873

hadoop的配置文件 hadoop的每个组件都使用一个XML文件配置，核心属性在core-site.xml中，HDFS在hdfs-site.xml配置文件中配置，MapReduce属性在mapred-site.xml配置文件中配置，这些文件都在conf子目录中。 hadoop可以在三个模式中运行本地模式、伪分布模式，完全分布模式本地模式：没有守护进程会进行运行而且一切都运行在单

CDH常用优化配置_HDFS配置

清平乐的技术专栏

04-13

1968

1.dfs.block.size HDFS中的数据block大小，默认是64M，对于较大集群，可以设置为128或264M 2.dfs.datanode.socket.write.timeout 增加dfs.datanode.socket.write.timeout和dfs.socket.timeout两个属性的时间，避免出现IO超时 3.dfs.datanode.max.transfer.thre...

hadoop平台综述（转）

zyj8170的专栏

02-28

1681

1. 概述随着企业要处理的数据量越来越大，MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现，由于其良好的扩展性和容错性，已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台，虽然其应用价值已得到大家认可，但仍存在很多问题，以下是主要几个：（1） Namenode/jobtracker单点故障。Hadoop采用的是master/slav

HDFS 参数调优

记录点点滴滴

05-26

3012

HDFS 参数调优NameNode 数据目录DataNode 数据目录数据块的副本数数据块大小HDFS 做均衡时使用的最大带宽磁盘可损坏数数据传输连接数NameNode 处理 RPC 调用的线程数NameNode 处理 DataNode 上报数据块和心跳的线程数DataNode 处理 RPC 调用的线程数DataNode 最大传输线程数读写数据时的缓存大小冗余数据块删除新增块延迟汇报增大同时打开的文件描述符和网络连接上限 NameNode 数据目录本地文件系统路径，决定 NN 在何处存放 fsimage

hadoop随笔记录.doc

最新发布

07-19

Hadoop随笔记录详细解析： Hadoop是一个分布式系统基础架构，它提供了系统底层细节透明的高度可扩展的平台，非常适合于存储和处理大量数据。在Hadoop的使用过程中，MapReduce编程模型是其核心组件之一，用于进行大...

一篇文章彻底掌握 HDFS 跨集群跨版本数据同步工具 hadoop disctp

明哥的IT随笔

11-12

6944

大家好，我是明哥！最近有小伙伴问到 hadoop distcp 的使用，对其中的一些细节和容易踩的坑不是很清楚，所以今天我们来看下 hadoop distcp 的原理，细节和容易踩的坑。1...

Flink随笔（二） SqlClient的配置和使用

xiaoliu_1的博客

02-24

4416

Flink SQL Client Flink’s Table & SQL API makes it possible to work with queries written in the SQL language, but these queries need to be embedded within a table program that is written in either Java or Scala. Moreover, these programs need to be .

Hive随笔.docx

11-14

删除数据库使用 `DROP DATABASE`，并可选参数 `CASCADE` 用于递归删除其中的表。【Hive 数据类型】 Hive 支持多种数据类型，包括整型（TINYINT, SMALLINT, INT, BIGINT）、浮点型（FLOAT, DOUBLE）、布尔型...

HDFS配置详解

weixin_43990680的博客

02-04

5958

HDFS配置详解随笔说明hdfs-site.xmldfs.namenode.name.dirdfs.block.sizedfs.datanode.data.dirdfs.namenode.handler.countdfs.datanode.handler.countdfs.datanode.max.xcieversdfs.permissionsdfs.datanode.du.reserveddfs...

hadoop datanode源码分析

csr_hema的专栏

09-20

555

[java] view plaincopy DataNode源代码分析: 1.简介:DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode 2.main启动DataNode 2.1:shell脚本

Hadoop 日常运维中的一些问题汇总整理

星月情缘的博客

07-02

1758

对于运维需要时刻保证服务的稳定和高可用。以下是一些对Hadoop群集运维过程中遇到的一些问题总结。有包含到大家遇到的可以参考。 1. 问题1 在集群执行hive脚本时，hive.log报错如下 java.lang.InterruptedException 解决办法：原因是因为线程在等待过程中长期获取不到资源被终止，可以通过修改下面的配置进行优化： dfs...

hadoop2.7.0源码之DataNode启动流程

LINBE_blazers的博客

04-19

574

本文将结合hadoop2.7.0版本的源码与UML图对DataNode的初始化流程进行深入剖析，旨在更深入地理解DataNode初始化的整体逻辑第一步：查看DataNode的入口方法main() public static void main(String args[]) { if (DFSUtil.parseHelpArgument(args, DataNode.USAGE, S...

Hadoop优化与调整

weixin_34332905的博客

04-22

220

2019独角兽企业重金招聘Python工程师标准>>> ...

HDFS1.0源代码解析—DataNode启动（二）

数据库天地

05-12

136

在（一）中介绍了DataNode启动本机需要进行的一些检查和操作，但是作为分布式文件系统HDFS中的一员，启动时还需要启动各种网络服务。 this.registerMXBean(conf); // register the MXBean for DataNode为DataNode注册MBean，具体MBean的介绍和使用见http://damies.iteye.com/blog/51788，...

HDFS之DataNode工作原理超全总结

METON的博客

08-17

1983

启动流程检查配置项${dfs.data.dir}对应的存储目录是否创建，是否具有读写的权限检查；获取本节点的主机名称和NameNode的地址，以及其他一些运行时需要的配置项；构造向NameNode注册需要的DataNodeRegistration对象，并在接下来进行一些属性的初始化；建立到NameNode的IPC连接，并调用handshake()方法与NameNode进行握手，得到了NamespaceInfo对象，包含了layoutVersion、namespaceID、cTime等信息；

Hadoop之DataNode源码分析（二）

prefect_start的博客

12-19

1424

3、DataNode启动源码解析工作机制源码解析启动流程 0）在pom.xml中增加如下依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.1.3</version> </dependency>

hadoop运维常见问题

yuangejiageiwohaoma的博客

07-07

516

HDFS的架构原理和各核心组件的作用及关系 HDFS(Hadoop Distribute FIleSystem) 用来处理海量数据的存储，是hadoop的分布式文件系统。核心组件： NameNode DataNoad SecondaNmenode NameNode：整个集群的元数据节点，主要负责存储整个集群的元数据信息（位置、大小、owner、操作时间等）和相应客户端的请求，管理数据块的映射，配置副本策略等 DataNode：实际存储数据块的地方，进行数据的读写 SecondNamenode：.

JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME<

03-21

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop/ ``` #### CLASSPATH_PREPEND_DISTCACHE 这一项较少见于常规部署流程之中，主要用于控制是否应该优先加载远程缓存中的资源而不是本地副本。对于那些频繁更新作业所...