大数据初学者问题汇总之利用hdfs恢复本地文件,除了命令之外还有什么办法?

当本地文件被删除,且需要从HDFS恢复时,除了使用get和copyToLocal命令,还可以通过文件的块和副本位置手动恢复。这涉及查找文件在集群中的存储位置,复制块到同一服务器并合并成原始文件。最后通过MD5校验确认文件的一致性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本地文件删除了,怎么从hdfs上恢复到本地同一文件(md5值一样)

此处大家都知道的两种命令,get和copyToLocal命令,除此之外实际上还有另一种

1.使用get命令

hdfs dfs -get /tmp/200M.data /tmp/

 2.使用copyToLocal命令

hdfs dfs -copyToLocal /tmp/200M.data /tmp/

第三种方法可能就有点儿绕,也有点儿复杂,但是也是一种方法

1.通过命令找到文件的块和副本在各服务器上存储的具体位置

hdfs fsck /tmp/200M.data -files -blocks -locations

通过这个命令可以找到 如图标注

 2.在对应大数据集群的服务器上找到对应的block(几个副本就有几个)

此处假设是a/b/c三台服务器,要将文件复原到a服务器上

在三台服务器都执行以下命令,找block位置

find / -name blk_*****

 3.将b、c服务器的两个block都发到a服务器上(三个块都在一台服务器)

scp b/c块位置 a-ip:/tmp

上述/tmp可以是a的任意位置,能找到即可

4.将几个块合并成一个

cat a服务器原本的块位置 /tmp/blk_*** >200M.data

此处‘a服务器原本的块位置’就是第2步a找到的位置

5.合并完成的200M.data就是原始的本地文件啦

可以检查MD5看看是不是同一个文件

md5sum 200M.data

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值