Hadoop数据的导入与导出技术详解
1. DistCp工具介绍
DistCp是一个强大的工具,用于在Hadoop文件系统之间移动数据。它具有增量复制等功能,能够近乎连续地同步两个系统上的目录。而且,它可以在不同版本的Hadoop之间复制数据,这使得它成为跨多个Hadoop集群同步数据的常用方法。
1.1 执行DistCp命令
运行DistCp命令时,建议在 screen 会话中执行,或者至少使用 nohup 将输出重定向到本地文件。
1.2 DistCp的局限性及解决方法
DistCp支持多个源目录,但只支持单个目标目录。这意味着不能使用单个DistCp作业在集群之间进行单向同步(除非只需要同步单个目录)。在这种情况下,可以运行多个DistCp作业,或者运行单个作业并同步到暂存目录,然后使用 fs -mv 将暂存文件移动到最终目标。
2. 使用Java加载文件到HDFS
2.1 问题描述
想要将写入HDFS的功能集成到Java应用程序中。
2.2 解决方案
使用Hadoop Java API访问HDFS中的数据。
2.3 详细讨论
HDFS Java API与Java的I/O模型很好地集成,可以使用常规的 InputStreams 和 OutputStreams 进行I/O操作。Hadoop有一个抽象类 FileSy
超级会员免费看
订阅专栏 解锁全文
1079

被折叠的 条评论
为什么被折叠?



