如何将服务器磁盘上的数据删除文件,手动删除HDFS过期数据清理磁盘空间并将删除的数据进行挂载备份处理...

最新推荐文章于 2024-05-12 21:07:27 发布

邢翰

最新推荐文章于 2024-05-12 21:07:27 发布

阅读量1.3k

点赞数

文章标签：如何将服务器磁盘上的数据删除文件

本文介绍了如何在Hadoop集群中删除过期数据以释放磁盘空间，同时将删除的数据挂载到另一服务器进行备份。步骤包括创建备份目录、挂载、验证挂载、更改权限、执行HDFS删除命令以及执行HDFS负载均衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

磁盘挂载应用：将Hadoop集群中部分文件挂载到B服务器上

应用场景：由于hdfs数据量过多，导致磁盘可用空间不足，需要删除过期的数据腾出空间，同时又要将被删除的数据进行备份处理，以免后期复用

需要删除的文件的hdfs目录：bin/hdfs dfs -ls /ibc/datalogs/apachelogs/archive/2018/201801*

删除的文件需要挂载备份到此目录下：/home/bigdata/mnt/backup

解释：

/ibc/datalogs/apachelogs/archive/2018/201801* —此目录为将要删除的hdfs文件目录

/home/bigdata/mnt/backup --文件挂载的目录

1.首先在bigdata用户下，创建目录

mnt/backup 即为 /home/bigdata/mnt/backup

2.切换到root用户

cd /home/bigdata/mnt/backup目录后，输入mount 10.10.3.201:/vol/bd_backup .

解释：

10.10.3.201:/vol/bd_backup --即为B服务器的目录地址，也就是挂载的服务器地址目录

3.挂载完之后，输入命令 df -h 去验证是否已经挂载成功，以及实时的查看挂载情况，磁盘使用以及剩余量

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

邢翰

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

CDH清理磁盘空间完全攻略和完整实现自动化脚本（大数据清除日志）

大模型大数据攻城狮的专栏

08-01

534

在CDH集群中，自动清除日志的意义非常重大。尤其是在内网环境下，运维人员无法随时登录服务器进行操作，或者是因为放长假等原因不能每天进行运维工作。这时，如果日志不自动清理，就会面临日志空间满了的问题，这可能造成CDH各组件无法正常工作，离线数仓计算完全停止。考虑到运维人员不能时时刻刻地在现场进行操作的实际情况，自动清除日志显得尤为重要。比如，当运维人员因为放长假或其他原因暂时无法处理系统日志时，如果系统能够自动清理过期或不必要的日志，就能有效减少系统故障的风险。自动清除日志还能有效节省存储空间和维护成本。

如何对HDFS进行节点内(磁盘间)数据平衡

萌兔兔MMQ！！

08-15

1924

在CDP7中，因为是Hadoop3，默认就支持磁盘间数据均衡，本文档主要介绍在CDP中如何进行HDFS磁盘扩容并在节点内进行Balancer。特别是这种情况：当DataNode原来是挂载了几个数据盘，当磁盘占用率很高之后，再挂载新的数据盘。由于Hadoop 2.x 版本并不支持HDFS的磁盘间数据均衡，因此，会造成老数据磁盘占用率很高，新挂载的数据盘几乎很空。在这种情况下，挂载新的数据盘就失去了扩容HDFS数据盘的意义。磁盘平衡执行计划生成的文件内容格式是Json的，并且存储在HDFS之上。...

参与评论您还未登录，请先登录后发表或查看评论

HDFS上磁盘数据清理

xubc的大数据笔记

04-14

5501

HDFS数据清理一些办法： datanode数据做reblance 清理临时目录、日志目录文件全量分区表历史分区清理使用lzo，orc格式进行数据压缩清理或者归档历史冷数据增加datanode横向扩容附上自动清理目录下过期的文件 #!/bin/bash source ~/.bash_profile # 将待检测的目录(可以为多个)加载至数组中 yarn_log_di...

Hadoop学习——HDFS数据存储和删除

07-09

1万+

HDFS中的数据都是分块存储的，默认块大小为64M，这个值可以从hdfs配置文件中更改dfs.blocksize。这样分快处理的好处是可以增加读取数据的吞吐量，因为可以同时从读取文件的不同分块。一、数据写入在客户端想HDFS写数据的过程中，主要分为下面几个过程：客户端将数据缓存到本地的一个临时文件中；当这个本地的临时文件到达HDFS中的块大小限制时，客户端访问Namenode，

hdfs磁盘清理历史数据

码不停歇的博客

05-11

420

统计warehouse目录下的磁盘使用量(目前表都是建在该路径下)#hdfs回收站会保留1天数据，过期会自动清理, 也可手动清理。#统计test目录下磁盘使用量的表,清理该测试路径的数据。#统计bak目录下磁盘使用量的表,取前30,清理大表。

HDFS元数据管理/磁盘清理维护

someInNeed的博客

11-23

2523

文件、目录自身的属性信息，例如文件名，目录名，修改信息等文件记录的信息的存储相关的信息，例如存储块信息，分块情况，副本个数等记录 HDFS 的 Datanode 的信息，用于 DataNode 的管理。

HDFS是如何删除数据的？

Shockang的博客

05-28

1万+

写在前面本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系解答客户端在删除HDFS上的文件时，会通过和元数据节点进行交互来执行命令，存储在数据节点上的文件内容的数据块(Block)也需要删除。由于元数据节点不存储实际的数据，所以元数据在执行 delete() 函数时，只需标记哪些数据块需要删除。元数据节点(NameNode)不会主动联系数据节点(DataNo

绝对完美解决hdfs datanode数据和磁盘数据分布不均调整（hdfs balancer ）——经验总结

赵英超的博客

02-04

2630

hdfs 需要存写大量文件，有时磁盘会成为整个集群的性能瓶颈，所以需要优化 hdfs 存取速度，将数据目录配置多磁盘，既可以提高并发存取的速度，还可以解决一块磁盘空间不够的问题。大数据Hadoop之——Hadoop 3.3.4 HA（高可用）原理与实现（QJM）

绝对完美解决hdfs datanode数据和磁盘数据分布不均调整（hdfs balancer ）——经验总结_datanode balance(2)

2401_84586524的博客

05-12

489

hdfs 需要存写大量文件，有时磁盘会成为整个集群的性能瓶颈，所以需要，将数据目录配置多磁盘，既可以提高并发存取的速度，还可以。

linux怎样清空服务器文件,HDFS——如何将文件从HDFS上删除

weixin_42097508的博客

04-29

773

用命令行bin/Hadoop fs -rm(r) 可以删除hdfs上的文件(夹)用HDFS的API也是可以的。如下：import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public...

HDFS冗余数据块的自动删除

IT小生

05-13

2116

HDFS冗余数据块的自动删除在日常维护hadoop集群的过程中发现这样一种情况：某个节点由于网络故障或者DataNode进程死亡，被NameNode判定为死亡， HDFS马上自动开始数据块的容错拷贝；当该节点重新添加到集群中时，由于该节点上的数据其实并没有损坏，所以造成了HDFS上某些block的备份数超过了设定的备份数。通过观察发现，这些多

hadoop的hdfs手工清理磁盘空间指令

kingrootZ的博客

10-07

1001

手工执行删除指令

linux 删除hdfs文件夹,linux中 hdfs结合awk删除某个日期前的文件

weixin_31742467的博客

05-05

455

首先可以查看hdfs文件，hadoop fs -ls /user/yankang02 结合日期是第六个属性，那么awk则选择$6执行后得到hadoop fs -ls /user/yankang02 | awk 'BEGIN{ days_ago=strftime("%F", systime()-30*24*3600) }{ if($6 只得到8-8之前的文件再根据文件目录遍历去删除所有的文件＃ sh...

Shell 脚本批量删除HDFS N天前文件

qq_41142053的博客

05-24

4420

按照时间批量删除HDFS 文件

解决hadoop伪分布式下hdfs存储空间不足的问题

qq_27792379的博客

05-23

1万+

运行环境：虚拟机下Ubuntu15.0 问题的产生：在运行hadoop fs -put的指令时把一个大型文件从本地复制到hdfs时，运行到一半突然复制中断，报“name node is in safe mode ”的错误提示。解决问题的思路：“name node is in safe mode”的提示意味着此时hdfs处于安全模式，只能对hdfs文件进行读操作，不能进行写操作，所以我想是否可以

hdfs磁盘满时，hdfs删除数据报错及解决

uniqueliang的博客

11-09

2093

错误 [root@hdp01 etc]# hdfs dfs -rm -r /data/log/log_format/2020-11-06/logstart-.1604630235482.tmp 20/11/09 10:54:26 WARN fs.TrashPolicyDefault: Can't create trash directory: hdfs://hdp01.long.com:8020/user/hdfs/.Trash/Current/data/log/log_format/2020-11-06

【大数据清洗和预处理】1.8HDFS的shell操作（2）（学习笔记）

weixin_63745352的博客

11-25

765

学习笔记

ftp服务器上传文件怎么删除,ftp服务器怎么删除上传的文件

weixin_32769015的博客

08-12

1076

ftp服务器怎么删除上传的文件内容精选换一换文档数据库服务支持开启公网访问功能，通过弹性IP进行访问。您也可通过弹性云服务器的内网访问文档数据库。要将已有的MongoDB数据库迁移到文档数据库，需要先使用mongoexport工具对它做转储。再通过弹性云服务器或可访问文档数据库的设备，使用mongoimport工具将转储文件导入到文档数据库服务。建议您尽量选择在业务低峰期迁移数据，ftp服务器怎...

数据治理-HDFS废弃文件、Hive废弃表检测与清理

最新发布

03-08

<think>嗯，用户之前问过HDFS的实现原理，现在接着问HDFS如何挂载虚拟远程磁盘。这说明用户可能在使用HDFS时，希望像操作本地文件系统一样方便地访问HDFS上的文件，比如通过挂载的方式。需要先理解HDFS挂载虚拟远程磁盘的具体含义，以及常见的实现方法。首先，HDFS本身是一个分布式文件系统，但用户可能想在本地机器上像挂载NFS那样挂载HDFS，这样就可以通过标准的文件操作命令（如ls、cp）来访问HDFS的数据。常见的工具包括Hadoop的Fuse-DFS、HDFS NFS Gateway，或者第三方解决方案如Apache Hadoop的HDFS-NFS，或者基于WebHDFS的挂载方式。然后，需要分析用户可能的实际需求。用户可能是开发人员或数据分析师，希望简化数据访问流程，或者需要将HDFS集成到现有的应用中，这些应用可能只能处理本地文件系统。此外，用户可能关心如何配置这些挂载工具，以及它们的优缺点，比如性能、稳定性、兼容性等。接下来，要考虑不同方法的步骤和注意事项。例如，使用Fuse-DFS需要安装FUSE和相关的Hadoop库，配置过程中可能会遇到依赖问题或者权限设置。而NFS Gateway可能需要启动特定的服务，并处理端口和防火墙的问题。同时，需要注意版本兼容性，比如Hadoop不同版本对应的工具可能有差异。另外，用户可能对安全性有要求，比如Kerberos认证的集成，或者在挂载时如何确保数据传输的安全性。需要提及这些方面，并提供相应的配置建议。还要考虑用户在使用过程中可能遇到的问题，例如挂载后的性能问题，小文件处理的效率，或者权限管理的问题。提前给出解决方案或优化建议，比如使用缓存、调整块大小等。最后，总结不同方法的适用场景，帮助用户根据实际需求选择最合适的挂载方式。例如，Fuse-DFS适合需要POSIX兼容的场景，而NFS Gateway适合已有NFS基础设施的环境。</think>--- ### HDFS 挂载虚拟远程磁盘实现指南 --- #### 一、核心原理将 HDFS 文件系统映射到本地目录，实现以下功能： - **POSIX 兼容**：支持标准文件操作（`ls`/`cp`/`mv`等） - **透明访问**：应用程序无需修改代码即可读写 HDFS - **协议转换**：通过 FUSE（用户态文件系统）或 NFS 协议桥接 --- #### 二、主流实现方案 ##### 方案 1：Fuse-DFS（原生方案） **实现公式**： $$ \text{IO路径} = \text{用户命令} \xrightarrow{FUSE} \text{libhdfs} \xrightarrow{RPC} \text{HDFS集群} $$ **部署步骤**： 1. 安装依赖： ```bash yum install fuse hadoop-hdfs-fuse # CentOS apt-get install fuse hdfs-fuse # Ubuntu ``` 2. 创建挂载点： ```bash mkdir /mnt/hdfs ``` 3. 配置核心参数（`core-site.xml`覆盖）： ```xml <property> <name>fs.hdfs.impl</name> <value>org.apache.hadoop.hdfs.DistributedFileSystem</value> </property> ``` 4. 挂载执行： ```bash hadoop-fuse-dfs dfs://namenode:8020 /mnt/hdfs -o allow_other ``` **性能瓶颈**： - 元数据操作延迟：$ \text{延迟} \approx 2 \times RTT_{NameNode} $ - 大文件吞吐量：$ \text{带宽} \leq \min(\text{网络带宽}, \sum \text{DataNode吞吐}) $ --- ##### 方案 2：NFS Gateway（企业级方案） **架构拓扑**： ``` [本地服务器] ←NFSv3→ [HDFS NFS Gateway] ←RPC→ [HDFS集群] ``` **关键配置**： 1. 启动网关服务： ```bash hdfs portmap # 需要 root 权限 hdfs nfs3 ``` 2. 挂载命令： ```bash mount -t nfs -o vers=3,nolock gateway-host:/ /mnt/hdfs ``` **安全增强**： - Kerberos 认证集成： ```properties # hdfs-site.xml <property> <name>nfs.keytab.file</name> <value>/etc/security/keytab/nfs.service.keytab</value> </property> ``` --- ##### 方案 3：第三方工具（如 S3FS-FUSE） **适用场景**： - 通过 S3 API 访问 HDFS（需启用 S3A 兼容层） - 挂载命令示例： ```bash s3fs mybucket /mnt/hdfs -o url=http://hdfs-s3-gateway:9870 \ -o passwd_file=${HOME}/.passwd-s3fs ``` --- #### 三、性能优化技巧 1. **缓存策略调整**： | 缓存类型 | 推荐值 | 计算公式 | |---------------|---------------|----------------------------| | 元数据缓存 | 60-120秒 | $ T_{cache} = \frac{平均访问间隔}{2} $ | | 数据块缓存 | 128MB | 与 HDFS 块大小对齐 | 2. **并发度优化**： ```bash # 调整 FUSE 线程数 mount -o max_threads=16,async_read ... ``` 3. **小文件合并**： ```bash # 使用 HAR 文件合并 hadoop archive -archiveName data.har -p /input /output ``` --- #### 四、故障排查指南 **常见问题**： 1. **挂载点无响应**： - 检查 `dmesg | grep fuse` 日志 - 验证网络连通性：`telnet namenode 8020` 2. **权限拒绝错误**： ```bash # 确保 Linux 用户与 HDFS 用户映射正确 export HADOOP_USER_NAME=hdfs ``` 3. **性能骤降**： ```bash # 监控 FUSE 队列深度 cat /sys/fs/fuse/connections/<X>/max_background ``` --- #### 五、方案对比选型 | 方案 | 延迟 | 吞吐量 | POSIX兼容性 | 适用场景 | |----------------|------------|------------|------------|----------------| | Fuse-DFS | 较高 | 中等 | 完整 | 开发测试环境 | | NFS Gateway | 中等 | 高 | 部分 | 企业生产环境 | | S3FS | 高 | 低 | 有限 | 混合云场景 | --- #### 六、安全加固建议 1. **网络隔离**： - 限制挂载端口的访问范围： ```bash iptables -A INPUT -p tcp --dport 2049 -s 192.168.1.0/24 -j ACCEPT ``` 2. **审计日志**： ```xml  <property> <name>dfs.namenode.audit.loggers</name> <value>org.apache.hadoop.hdfs.server.namenode.audit.FileAuditLogger</value> </property> ``` --- 通过合理选择挂载方案并实施优化策略，可实现 HDFS 与本地文件系统的无缝集成，但需注意 HDFS 原生设计对随机写入的支持限制。建议在正式部署前进行 $ \text{吞吐量} = f(\text{文件大小}, \text{并发数}) $ 的性能压测。