通过NFSv3挂载HDFS到本地目录 -- 3性能测试结果

最新推荐文章于 2023-08-13 10:37:18 发布

原创最新推荐文章于 2023-08-13 10:37:18 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hdfs #nfs #Linux #配置

hdfs-nfs网关专栏收录该内容

3 篇文章

订阅专栏

本文测试了在AWS虚拟机上通过NFS网关访问HDFS的文件传输速度，包括不同文件大小（1MB和5MB）下的性能表现，并分析了结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HDFS-NFSgatway speed test on AWS VM

Backgroud

VM type: t2.micro, 1vCPU, 1GB RAM, 8 GBEBS

OS: Linux, REHL 6

Test Method

dd commard

File size

1MBbyte, 5MByte

FS type:

Raw, nfs

Test result

(MB/s)	Raw FS	NFS-HDFS
1M	81.7	62.0
5M	6.0	12.2

分析：

a）的确变慢了不少。需要优化，缓冲等等技术

b） AWS的存储的性能，也是随时间变化的。好像在前台和后台之间切换，一般在晚6点左右比较高。

test sample

a) write 1M-size files to HDFS throughnfs gateway

b) write 5M-size files to HDFS throughnfs gateway

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

XuYongshi02

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

HDFS NFS数据挂载功能

renzhewudi77的博客

12-12

2199

目的：利用NFS，将HDFS底层文件共享到本地操作系统本篇文章主要介绍HDFS 的NFS网关配置及配置之后读写性能问题，网上有比较多的参考资料，也都很有用。但我在配置过程中，遇到许多其他隐藏的坑，例如，首先我不知道NFS是什么，我就开始配，导致简单的配置出错我都弄了很久。为了让跟我一样的小伙伴们避免踩同样的坑，我从Linux NFS到HDFS NFS配置，再到配置好之后，数据读写性...

hdfs挂载

wflh323的专栏

06-05

1823

hdfs可以当做本地磁盘挂载到服务器上，操作hdfs就跟操作本地目录一样。hdfs有两种挂载方式： 1. nfs 挂载在cm 管理台，hdfs 添加角色nfs 启动服务挂载目录： mount -t nfs -o vers=3,proto=tcp,nolock,noacl,sync nfsserver:/ /hdfs_nfs_mount 卸载目录 umo...

参与评论您还未登录，请先登录后发表或查看评论

hadoop新特性通过NFSv3挂载HDFS到本地目录

weixin_34029949的博客

05-11

268

原理NFS允许用户像访问本地文件系统一样访问远程文件系统，而将NFS引入HDFS后，用户可像读写本地文件一样读写HDFS上的文件，大大简化了HDFS使用，这是通过引入一个NFS gateway服务实现的，该服务能将NFS协议转换为HDFS访问协议，具体如下图所示。Portmap和Nfs3进程是成功启动hdfs nfs网关后才有的进程HDFS NFS Gateway安装配置详解...

hadoop 2.6.5 hdfs nfs挂载到本地

nisinongnong的博客

05-14

1053

最近做的一个项目中有这样一个需求，就是需要利用hdfs存视频文件，怎么样存方便呢？当然利用hdfs put命令是可以的，但是这样以来很麻烦，而且利用nginx rtmp模块去访问的时候很麻烦，所以想利用nfs将hdfs挂载到本地来，前后折腾了两天吧，主要是按照博客上的教程配了一边之后，发现总是提示mount.nfs:mount system call failed!!! 很是折腾了一...

hdfs-mount:将HDFS挂载为本地Linux文件系统的工具

03-11

hdfs挂载允许将远程HDFS挂载为本地Linux文件系统，并允许任意应用程序/ Shell脚本以有效且安全的方式将HDFS作为普通文件和目录进行访问。功能（计划中）高性能使用协议缓冲区直接为FUSE和HDFS连接Linux内核（不需要JavaVM）针对吞吐量密集型工作负载进行了设计和优化（在可能的情况下，将吞吐量交换为延迟）完整的流媒体和自动预读支持并发操作内存中元数据缓存（非常快ls！）高稳定性和强大的故障处理行为自动重试和故障转移，均可配置在HDFS可用之前，可选的延迟安装支持读写支持随机写入[速度慢，但功能上正确] 支持文件截断（可选）通过按需提取内容来扩展ZIP存档这为“ HDFS上的数百万个小文件”问题提供了有效的解决方案 CoreOS和Docker友好的可选打包为静态链接的独立可执行文件当前状态 “阿尔法”正在积极发展中。基本的R

通过NFSv3挂载HDFS到本地目录 -- 1安装配置NFS

XuYongshi02的专栏

01-25

2949

通过NFSv3挂载HDFS到本地目录 -- 1安装配置NFS 1. 背景 HDFS 几乎成了分布式计算的标配，但是，大部分的程序，或者程序袁使用的还是POSIX或者类POSIX接口。因此，如何适配就是个问题。 MapR 的产品，使用HDFS作为持久化的基础，但是app使用起来，还是很方便，其中一个原因是透过NFS 使用HDFS，上层应用看到的就是POSIX接口，只是U

通过NFSv3挂载HDFS到本地目录 -- 2安装配置hdfs-nfs网关

XuYongshi02的专栏

01-25

1724

通过NFSv3挂载HDFS到本地目录 -- 2安装配置hdfs-nfs网关 4. 透过NFS访问hdfs 最重要的参考文档是这篇，来自官方 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsNfsGateway.html 当然里面有坑，两个：一个是需要停止系统的por

通过NFSv3挂载HDFS到本地目录 -- 2续hdfs-nfs网关解决错误

XuYongshi02的专栏

01-25

3174

通过NFSv3挂载HDFS到本地目录 -- 2续hdfs-nfs网关解决错误 4.8 总结 - 主要命令列表基本顺序如下： cd /home/hdfs/hadoop-2.7.1 sbin/stop-dfs.sh service nfs stop service rpcbind stop sbin/hadoop-daemon.sh --script /home/hdfs

自动化挂载HDFS文件系统到本地目录

Ganymede的Hadoop世界

10-13

1499

[Author]: kwu 自动化hdfs挂盘

HDFS挂载到本地硬盘

java、python、大数据

11-02

4134

工具hadoop-fuse-dfs 首先创建目录：mkdir /hdfs 然后把目录权限给hdfs chown -R hadoop:hadoop /hdfs/ 执行命令挂载的命令：hadoop-fuse-dfs hdfs://qlwb103:8020 /hdfs 然后查看：已经有内容了

linux进入hdfs目录,fuse挂载hdfs目录到linux本地

weixin_36037417的博客

04-30

870

1,安装fuseyum -y install hadoop-hdfs-fuse2.修改环境变量vi /etc/profile增加如下配置：JAVA_HOME=/usr/jdk64/jdk1.8.0_60HADOOP_HOME=/usr/hdp/2.4.0.0-169/hadoopexport PATH=$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATHexport LD_...

使用NFSv3将HDFS挂载到本地

BusyMonkey

09-03

4453

centos7，使用NFSv3将HDFS挂载到本地

Iozone: NFS文件系统性能测试

薛正华的专栏

02-10

2812

使用IOZone测试，存在如下问题： When I use the parameter -U, it failed. The command is as follows:/opt/ –azcR -U /mnt/foo –f /mnt/foo/testfile –b exceloutput.xls "/mnt/foo" is a mounted directory, and

【NFS】NFS性能测试、优化

qq_43286526的博客

07-14

1264

Ceph性能测试（RBD、CephFS、NFS、Cache Tier）nfs说到底还是性能坑，目前有其他高性能的替代方案么？为什么Linux上NFS性能只有几MB/S的速度？NAS性能：NFS，Samba和GlusterFS。NFS服务优化挂载优化关于NFS内核优化。Linux NFS 客户端僵死。超算系统需要躲开的NFS大坑。NFS性能调优--实时监测。NFS文件系统挂载和优化。NFS性能调优：实时监测。nfs挂载优化及优缺点。测试nfs文件读写速度。NFS的目录数量限制。NFS文件服务器使用。

HDFS操作之客户端NFS

qq_27501591的博客

08-13

407

HDFS操作之客户端NFS

NFS v3 介绍

H.B.Hooper

05-06

5158

NFS v3 介绍 2013-04-15 09:06:42| 分类： rhel_nfs|举报|字号订阅 NFS（Network File System）是由升阳（Sun）最先开发，它的目标是让不同机器能够跨平台共享相同的档案资源。简单来说，可以看成是一种远端的档案系统。也因为跨平台的目标，所以几乎所有的Unix Like平台都支援NFS，如IBM A

挂载HDFS

狮锅艺

10-07

982

HDFS挂载到Linux文件系统中作为传统的文件系统使用

NFSv3性能分析

IT基础架构

01-16

1947

NFSv3性能分析工具 nfs-utils提供了nfsstat与nfsiostat两个工具， nfsstat yum install -y nfs-utils 在服务端执行nfsstat -s 略。在客户端执行nfsstat -c [root@host ~]# nfsstat -c Client rpc stats: calls retrans authrefrsh 83910043 0 83914699 Client nfs v3: null

HDFS挂载虚拟远程磁盘

最新发布

03-08

<think>嗯，用户之前问过HDFS的实现原理，现在接着问HDFS如何挂载虚拟远程磁盘。这说明用户可能在使用HDFS时，希望像操作本地文件系统一样方便地访问HDFS上的文件，比如通过挂载的方式。需要先理解HDFS挂载虚拟远程磁盘的具体含义，以及常见的实现方法。首先，HDFS本身是一个分布式文件系统，但用户可能想在本地机器上像挂载NFS那样挂载HDFS，这样就可以通过标准的文件操作命令（如ls、cp）来访问HDFS的数据。常见的工具包括Hadoop的Fuse-DFS、HDFS NFS Gateway，或者第三方解决方案如Apache Hadoop的HDFS-NFS，或者基于WebHDFS的挂载方式。然后，需要分析用户可能的实际需求。用户可能是开发人员或数据分析师，希望简化数据访问流程，或者需要将HDFS集成到现有的应用中，这些应用可能只能处理本地文件系统。此外，用户可能关心如何配置这些挂载工具，以及它们的优缺点，比如性能、稳定性、兼容性等。接下来，要考虑不同方法的步骤和注意事项。例如，使用Fuse-DFS需要安装FUSE和相关的Hadoop库，配置过程中可能会遇到依赖问题或者权限设置。而NFS Gateway可能需要启动特定的服务，并处理端口和防火墙的问题。同时，需要注意版本兼容性，比如Hadoop不同版本对应的工具可能有差异。另外，用户可能对安全性有要求，比如Kerberos认证的集成，或者在挂载时如何确保数据传输的安全性。需要提及这些方面，并提供相应的配置建议。还要考虑用户在使用过程中可能遇到的问题，例如挂载后的性能问题，小文件处理的效率，或者权限管理的问题。提前给出解决方案或优化建议，比如使用缓存、调整块大小等。最后，总结不同方法的适用场景，帮助用户根据实际需求选择最合适的挂载方式。例如，Fuse-DFS适合需要POSIX兼容的场景，而NFS Gateway适合已有NFS基础设施的环境。</think>--- ### HDFS 挂载虚拟远程磁盘实现指南 --- #### 一、核心原理将 HDFS 文件系统映射到本地目录，实现以下功能： - **POSIX 兼容**：支持标准文件操作（`ls`/`cp`/`mv`等） - **透明访问**：应用程序无需修改代码即可读写 HDFS - **协议转换**：通过 FUSE（用户态文件系统）或 NFS 协议桥接 --- #### 二、主流实现方案 ##### 方案 1：Fuse-DFS（原生方案） **实现公式**： $$ \text{IO路径} = \text{用户命令} \xrightarrow{FUSE} \text{libhdfs} \xrightarrow{RPC} \text{HDFS集群} $$ **部署步骤**： 1. 安装依赖： ```bash yum install fuse hadoop-hdfs-fuse # CentOS apt-get install fuse hdfs-fuse # Ubuntu ``` 2. 创建挂载点： ```bash mkdir /mnt/hdfs ``` 3. 配置核心参数（`core-site.xml`覆盖）： ```xml <property> <name>fs.hdfs.impl</name> <value>org.apache.hadoop.hdfs.DistributedFileSystem</value> </property> ``` 4. 挂载执行： ```bash hadoop-fuse-dfs dfs://namenode:8020 /mnt/hdfs -o allow_other ``` **性能瓶颈**： - 元数据操作延迟：$ \text{延迟} \approx 2 \times RTT_{NameNode} $ - 大文件吞吐量：$ \text{带宽} \leq \min(\text{网络带宽}, \sum \text{DataNode吞吐}) $ --- ##### 方案 2：NFS Gateway（企业级方案） **架构拓扑**： ``` [本地服务器] ←NFSv3→ [HDFS NFS Gateway] ←RPC→ [HDFS集群] ``` **关键配置**： 1. 启动网关服务： ```bash hdfs portmap # 需要 root 权限 hdfs nfs3 ``` 2. 挂载命令： ```bash mount -t nfs -o vers=3,nolock gateway-host:/ /mnt/hdfs ``` **安全增强**： - Kerberos 认证集成： ```properties # hdfs-site.xml <property> <name>nfs.keytab.file</name> <value>/etc/security/keytab/nfs.service.keytab</value> </property> ``` --- ##### 方案 3：第三方工具（如 S3FS-FUSE） **适用场景**： - 通过 S3 API 访问 HDFS（需启用 S3A 兼容层） - 挂载命令示例： ```bash s3fs mybucket /mnt/hdfs -o url=http://hdfs-s3-gateway:9870 \ -o passwd_file=${HOME}/.passwd-s3fs ``` --- #### 三、性能优化技巧 1. **缓存策略调整**： | 缓存类型 | 推荐值 | 计算公式 | |---------------|---------------|----------------------------| | 元数据缓存 | 60-120秒 | $ T_{cache} = \frac{平均访问间隔}{2} $ | | 数据块缓存 | 128MB | 与 HDFS 块大小对齐 | 2. **并发度优化**： ```bash # 调整 FUSE 线程数 mount -o max_threads=16,async_read ... ``` 3. **小文件合并**： ```bash # 使用 HAR 文件合并 hadoop archive -archiveName data.har -p /input /output ``` --- #### 四、故障排查指南 **常见问题**： 1. **挂载点无响应**： - 检查 `dmesg | grep fuse` 日志 - 验证网络连通性：`telnet namenode 8020` 2. **权限拒绝错误**： ```bash # 确保 Linux 用户与 HDFS 用户映射正确 export HADOOP_USER_NAME=hdfs ``` 3. **性能骤降**： ```bash # 监控 FUSE 队列深度 cat /sys/fs/fuse/connections/<X>/max_background ``` --- #### 五、方案对比选型 | 方案 | 延迟 | 吞吐量 | POSIX兼容性 | 适用场景 | |----------------|------------|------------|------------|----------------| | Fuse-DFS | 较高 | 中等 | 完整 | 开发测试环境 | | NFS Gateway | 中等 | 高 | 部分 | 企业生产环境 | | S3FS | 高 | 低 | 有限 | 混合云场景 | --- #### 六、安全加固建议 1. **网络隔离**： - 限制挂载端口的访问范围： ```bash iptables -A INPUT -p tcp --dport 2049 -s 192.168.1.0/24 -j ACCEPT ``` 2. **审计日志**： ```xml  <property> <name>dfs.namenode.audit.loggers</name> <value>org.apache.hadoop.hdfs.server.namenode.audit.FileAuditLogger</value> </property> ``` --- 通过合理选择挂载方案并实施优化策略，可实现 HDFS 与本地文件系统的无缝集成，但需注意 HDFS 原生设计对随机写入的支持限制。建议在正式部署前进行 $ \text{吞吐量} = f(\text{文件大小}, \text{并发数}) $ 的性能压测。