hadoop参数-core-site.xml

本文详细介绍了Hadoop系统中的缺省配置参数及其含义,包括临时目录设定、本地库使用、安全认证设置、日志管理及各类文件系统操作类设置等,为读者提供了一个全面了解Hadoop配置的基础。

三个缺省配置参考文件说明

core-default.html

 

序号

参数名

参数值

参数说明

1

hadoop.tmp.dir

/tmp/hadoop-${user.name}

临时目录设定

2

hadoop.native.lib

true

使用本地hadoop库标识。

3

hadoop.http.filter.initializers

 

http服务器过滤链设置

4

hadoop.security.group.mapping

org.apache.hadoop.security.ShellBasedUnixGroupsMapping

组内用户的列表的类设定

5

hadoop.security.authorization

false

服务端认证开启

6

hadoop.security.authentication

simple

无认证或认证设置

7

hadoop.security.token.service.use_ip

true

是否开启使用IP地址作为连接的开关

8

hadoop.logfile.size

10000000

日志文件最大为10M

9

hadoop.logfile.count

10

日志文件数量为10

10

io.file.buffer.size

4096

流文件的缓冲区为4K

11

io.bytes.per.checksum

512

校验位数为512字节

12

io.skip.checksum.errors

false

校验出错后是抛出异常还是略过标识。True则略过。

13

io.compression.codecs

org.apache.hadoop.io.compress.DefaultCodec,

org.apache.hadoop.io.compress.GzipCodec,

org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.SnappyCodec

压缩和解压的方式设置

14

io.serializations

org.apache.hadoop.io.serializer.WritableSerialization

序例化和反序列化的类设定

15

fs.default.name

file:///

缺省的文件URI标识设定。

16

fs.trash.interval

0

文件废弃标识设定,0为禁止此功能

17

fs.file.impl

org.apache.hadoop.fs.LocalFileSystem

本地文件操作类设置

18

fs.hdfs.impl

org.apache.hadoop.hdfs.DistributedFileSystem

HDFS文件操作类设置

19

fs.s3.impl

org.apache.hadoop.fs.s3.S3FileSystem

S3文件操作类设置

20

fs.s3n.impl

org.apache.hadoop.fs.s3native.NativeS3FileSystem

S3文件本地操作类设置

21

fs.kfs.impl

org.apache.hadoop.fs.kfs.KosmosFileSystem

KFS文件操作类设置.

22

fs.hftp.impl

org.apache.hadoop.hdfs.HftpFileSystem

HTTP方式操作文件设置

23

fs.hsftp.impl

org.apache.hadoop.hdfs.HsftpFileSystem

HTTPS方式操作文件设置

24

fs.webhdfs.impl

org.apache.hadoop.hdfs.web.WebHdfsFileSystem

WEB方式操作文件类设置

25

fs.ftp.impl

org.apache.hadoop.fs.ftp.FTPFileSystem

FTP文件操作类设置

26

fs.ramfs.impl

org.apache.hadoop.fs.InMemoryFileSystem

内存文件操作类设置

27

fs.har.impl

org.apache.hadoop.fs.HarFileSystem

压缩文件操作类设置.

28

fs.har.impl.disable.cache

true

是否缓存har文件的标识设定

29

fs.checkpoint.dir

${hadoop.tmp.dir}/dfs/namesecondary

备份名称节点的存放目前录设置

30

fs.checkpoint.edits.dir

${fs.checkpoint.dir}

备份名称节点日志文件的存放目前录设置

31

fs.checkpoint.period

3600

动态检查的间隔时间设置

32

fs.checkpoint.size

67108864

日志文件大小为64M

33

fs.s3.block.size

67108864

S3文件系统的块的大小为64M

34

fs.s3.buffer.dir

${hadoop.tmp.dir}/s3

S3文件数据的本地存放目录

35

fs.s3.maxRetries

4

S3文件数据的偿试读写次数

36

fs.s3.sleepTimeSeconds

10

S3文件偿试的间隔

37

local.cache.size

10737418240

缓存大小设置为10GB

38

io.seqfile.compress.blocksize

1000000

压缩流式文件中的最小块数为100

39

io.seqfile.lazydecompress

true

块是否需要压缩标识设定

40

io.seqfile.sorter.recordlimit

1000000

内存中排序记录块类最小为100

41

io.mapfile.bloom.size

1048576

BloomMapFiler过滤量为1M

42

io.mapfile.bloom.error.rate

0.005

 

43

hadoop.util.hash.type

murmur

缺少hash方法为murmur

44

ipc.client.idlethreshold

4000

连接数据最小阀值为4000

45

ipc.client.kill.max

10

一个客户端连接数最大值为10

46

ipc.client.connection.maxidletime

10000

断开与服务器连接的时间最大为10

47

ipc.client.connect.max.retries

10

建立与服务器连接的重试次数为10

48

ipc.server.listen.queue.size

128

接收客户连接的监听队例的长度为128

49

ipc.server.tcpnodelay

false

开启或关闭服务器端TCP连接算法

50

ipc.client.tcpnodelay

false

开启或关闭客户端TCP连接算法

51

webinterface.private.actions

false

Web交互的行为设定

 

52

hadoop.rpc.socket.factory.class.default

org.apache.hadoop.net.StandardSocketFactory

缺省的socket工厂类设置

53

hadoop.rpc.socket.factory.class.ClientProtocol

 

dfs连接时的缺省socket工厂类

54

hadoop.socks.server

 

服务端的工厂类缺省设置为SocksSocketFactory.

55

topology.node.switch.mapping.impl

org.apache.hadoop.net.ScriptBasedMapping

 

56

topology.script.file.name

 

 

57

topology.script.number.args

100

参数数量最多为100

58

hadoop.security.uid.cache.secs

14400

 

 

 

 

 

 

<think>好的,用户现在的问题是询问如何在Hadoop 3.3.0中备份配置文件并删除旧绑定的具体步骤和注意事项。我需要结合用户提供的引用内容和之前的对话历史来给出准确的回答。 首先,回顾之前的对话,用户之前询问的是如何备份并删除Hadoop中的旧绑定文件slf4j-log4j12-1.7.25.jar,我给出了详细的步骤,包括定位文件、创建备份目录、执行备份操作、验证完整性以及恢复方法。现在用户的新问题涉及到配置文件的备份和旧绑定的删除,需要将这两个操作结合起来。 接下来,用户提供的引用内容中,引用[1]提到了Hive的配置文件hive-env.sh和hive-site.xml的设置,涉及Hadoop的环境变量配置。引用[2]则展示了使用curl下载Hadoop安装包和其他文件的操作,这可能与备份时的文件传输相关,但用户的问题是关于配置文件的备份,所以可能需要参考之前的备份步骤。 用户的需求是明确的:备份Hadoop 3.3.0的配置文件并删除旧绑定。需要分步骤说明,同时注意事项部分需要涵盖权限、验证、版本控制等。可能需要注意的要点包括: 1. 配置文件的常见位置:根据之前的回答,Hadoop的配置文件通常在安装目录下的etc/hadoop子目录中,比如/export/server/hadoop-3.3.0/etc/hadoop,用户提供的引用[1]中也提到了类似路径。 2. 备份方法:可以使用cp命令备份整个目录,或者使用tar打包,确保保留文件权限和时间戳。可能需要使用sudo权限,特别是如果配置文件位于系统目录下。 3. 删除旧绑定:之前的回答中提到了删除slf4j-log4j12的jar包,用户可能需要类似的操作,但这次是删除其他旧绑定,需要确认具体文件名和路径。 4. 验证步骤:备份后检查文件完整性,删除后测试Hadoop功能是否正常,如hdfs命令、yarn等。 5. 注意事项:包括权限保留、回滚计划、版本控制、集群同步(如果是多节点环境)等。 现在需要将这些步骤整合成一个清晰的指南。可能需要参考用户提供的引用中的路径,例如HIVE_CONF_DIR和HADOOP_HOME的位置,确保备份路径正确。 同时,用户提到的删除旧绑定可能指的是之前提到的slf4j-log4j12的jar文件,或者是其他需要替换的依赖项。需要明确删除的具体文件,并确保在删除前已经正确备份,避免系统无法启动。 在注意事项部分,需要强调备份的重要性,尤其是在生产环境中,操作前进行测试,以及多节点环境的同步问题。可能还需要提到使用版本控制工具管理配置变更,方便回滚。 最后,用户可能希望了解如何自动化备份和删除过程,或者如何验证操作后的系统状态,这些都需要在回答中涵盖。此外,相关问题部分可以包括自动化脚本编写、多节点配置管理、日志分析等,帮助用户进一步学习。</think>--- ### **Hadoop 3.3.0 配置文件备份与旧绑定删除操作指南** --- #### **一、配置文件备份步骤** **1. 定位核心配置文件** Hadoop 3.3.0 主配置目录(根据引用[1]的路径示例): ```bash /export/server/hadoop-3.3.0/etc/hadoop/ ``` 关键配置文件- `core-site.xml`(HDFS配置) - `hdfs-site.xml`(HDFS存储策略) - `yarn-site.xml`(资源管理) - `mapred-site.xml`(MapReduce配置) - `hadoop-env.sh`(环境变量) **2. 创建备份目录** 建议使用带时间戳的备份目录: ```bash mkdir -p ~/hadoop_config_backup/$(date +%Y%m%d) ``` **3. 执行备份操作** 使用`rsync`保持文件属性(需sudo权限): ```bash sudo rsync -avz --delete \ /export/server/hadoop-3.3.0/etc/hadoop/ \ ~/hadoop_config_backup/$(date +%Y%m%d)/ ``` 或使用`tar`打包压缩: ```bash sudo tar -czvf hadoop_config_$(date +%Y%m%d).tar.gz \ -C /export/server/hadoop-3.3.0/etc/hadoop . ``` --- #### **二、删除旧绑定操作** **1. 定位旧绑定文件** 常见冲突绑定文件(根据引用[1][3]示例): ```bash # SLF4J绑定冲突文件 /usr/local/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar # Hive相关旧绑定(参考引用[1]路径) /export/server/apache-hive-3.1.2-bin/lib/obsolete-lib.jar ``` **2. 安全删除流程** ```bash # 1. 备份旧文件 sudo cp -p /path/to/old-binding.jar ~/hadoop_lib_backup/ # 2. 验证新版本存在性(例如使用slf4j-api-2.x.x.jar) ls /usr/local/hadoop/share/hadoop/common/lib/slf4j-api-* # 3. 删除旧绑定 sudo rm -f /path/to/old-binding.jar ``` --- #### **三、操作后验证** **1. 配置文件验证** ```bash # 检查备份文件完整性 diff -qr /export/server/hadoop-3.3.0/etc/hadoop/ \ ~/hadoop_config_backup/$(date +%Y%m%d) ``` **2. 功能测试** ```bash # HDFS基础操作 hdfs dfs -ls / hdfs dfsadmin -report # YARN服务状态 yarn node -list # MapReduce测试(引用[2]的curl示例可辅助验证) hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 10 100 ``` --- #### **四、关键注意事项** 1. **权限保留** - 使用`-p`参数保留文件属性(如`cp -p`) - 配置文件默认权限应为`644`,属主为`hadoop:hadoop`[^1] 2. **回滚预案** ```bash # 快速恢复配置文件 sudo tar -xzvf hadoop_config_20231001.tar.gz \ -C /export/server/hadoop-3.3.0/etc/hadoop/ ``` 3. **多节点同步** 在集群环境中需同步所有节点: ```bash # 使用pdsh同步配置(需提前安装) pdsh -w node[1-10] "sudo systemctl stop hadoop" pdsh -w node[1-10] "rsync -avz master:/backup/path /target/path" ``` 4. **版本控制建议** 推荐使用Git管理配置变更: ```bash cd /export/server/hadoop-3.3.0/etc/hadoop git init git add . git commit -m "Backup config before removing old bindings" ``` --- ### **操作流程图** ``` [定位配置文件] → [创建时间戳备份] → [rsync/tar备份] ↓ [定位旧绑定] → [备份jar文件] → [删除冲突库] ↓ [验证功能] → [多节点同步] → [提交版本控制] ``` --- ### **相关问题** 1. 如何通过Ansible自动化Hadoop集群配置管理? 2. 使用Zookeeper实现Hadoop配置中心化的方法? 3. Hadoop日志文件中常见的SLF4J冲突如何排查?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值