Spark中直接操作HDFS

最新推荐文章于 2024-05-10 11:12:39 发布

weixin_34351321

最新推荐文章于 2024-05-10 11:12:39 发布

阅读量614

点赞数

CC 4.0 BY-SA版权

文章标签：大数据 java

原文链接：http://www.cnblogs.com/maxigang/p/10033159.html

本文深入探讨了Spark如何与Hadoop生态中的HDFS进行高效交互，包括通过Hadoop方式和Spark自带的Hadoop配置操作已存在的文件目录，以及如何检查和删除HDFS上的路径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark作为一个基于内存的大数据计算框架，可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合。Spark可以直接操作存储在HDFS上面的数据：

通过Hadoop方式操作已经存在的文件目录

val path = new

org.apache.hadoop.fs.Path("hdfs://xxx"); val hdfs = org.apache.hadoop.fs.FileSystem.get( new java.net.URI("hdfs://x", new org.apache.hadoop.conf.Configuration()) ); if(hdfs.exists(path) hdfs.delete(path,false))

通过spark自带的hadoopconf方式操作已经存在文件目录　

val hadoopConf = sparkContext.hadoopConfiguration
    val hdfs = org.apache.hadoop.fs.FileSystem.get(hadoopConf)
 if(hdfs.exists(path)){
      //为防止误删，禁止递归删除
      hdfs.delete(path,false)
    }

转载于:https://www.cnblogs.com/maxigang/p/10033159.html