Hadoop概念学习系列之为什么hadoop/spark执行作业时，输出路径必须要不存在？（三十九）...

weixin_33682719

于 2017-11-13 13:38:00 发布

阅读量112

点赞数

CC 4.0 BY-SA版权

文章标签：大数据

原文链接：https://yq.aliyun.com/articles/370697

本文探讨了Hadoop中输出路径的处理机制，包括如何指定输出路径及Hadoop为何不允许覆盖已存在目录的原因。理解这一机制有助于避免数据覆盖的风险。

　很多人只会，但没深入体会和想为什么要这样？

　　拿Hadoop来说，当然，spark也一样的道理。

　　输出路径由Hadoop自己创建，实际的结果文件遵守part-nnnn的约定。

　　如何指定一个已有目录作为Hadoop作业的输出路径，作业将无法进行，并会抛出异常抗议一个已经存在的目录。如果想让Hadoop将输出存储到一个目录，它必须是不存的目录。其实，我们可以把这个特点当做Hadoop的一种安全机制，它可以防止Hadoop重写有用的文件以及用户总是忘记弄清的事。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/6092396.html，如需转载请自行联系原作者

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。