hadoop内置的distcp命令,采用map -reduce的方式对文件进行复制,对于大数据文件夹的复制,特别是文件夹的嵌套式很有效的。
不需要我们手工指定底层文件夹,即可完成复制。并且复制的结果文件与源文件文件名相同,不会出现part-*的文件的情况。
但是对于小数据文件,推荐使用hadoop内置的fs -cp命令,当hadoop比较拥挤的时候,启动一个map -reduce得过程会变得很慢,这就体现出了cp的优势,直接完成文件的复制,减少了distcp由于启动map,reduce造成的文件复制的延迟。
本文对比了Hadoop中distcp与fs-cp两种文件复制命令的特点。distcp适合大数据文件夹复制,尤其适用于嵌套文件夹;而fs-cp则更适合小文件的快速复制,避免了启动MapReduce任务的开销。
2334

被折叠的 条评论
为什么被折叠?



