开源代码Hadoop NFS connector (链接分享)

本文介绍了如何通过HadoopNFSconnector使Hadoop支持多种文件系统,避免了将数据从不同存储系统复制到HDFS的过程,提高了数据分析的效率。

Hadoop 本身有自己的文件系统HDFS,传统的做法是数据保存到Hadoop Cluster的HDFS系统,然后再做数据分析。

在很多实际应用,数据往往分布在各种各样的存储系统或者文件系统,比如亚马孙公有云AWS的S3,Linux EXT3,Window的NTFS等等。

NFS 是网络文件系统,是一种分布式文件系统协议,很好地解决了网络间的文件共享问题,被广泛使用,具体介绍参见 https://en.wikipedia.org/wiki/Network_File_System

如果Hadoop想分析从其他文件系统传过来的数据流,由于该文件系统不被hadoop支持,所以需要先把数据存放到HDFS,然后再做数据分析。而如果Hadoop支持该文件系统,则可以直接从该文件系统取数据,然后做数据分析,少了一个从某文件系统copy到HDFS的过程,提高了效率。

Hadoop NFS connector 主要由NetApp 公司开发的, 源代码链接为https://github.com/NetApp/NetApp-Hadoop-NFS-Connector

Hadoop可以通过添加NFS connector,  使得Hadoop支持各种各样的文件系统访问,只要该文件系统支持NFS协议。


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值