用Python连接HDFS

本文介绍如何使用Python连接HDFS文件系统并进行文件操作。主要内容包括安装第三方库hdfs,配置HDFS URL及文件路径,建立客户端连接,以及读取指定目录下的所有文件夹名称等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如果各位目前有用到大数据技术,相信很多的结果写在hdfs是最方便也最快速的。

本篇博客就主要讲一下怎么利用python直接去连接HDFS文件系统,并对文件进行操作。

Python连接hbase需要一个三方库(这里python版本2.7)hdfs,利用pip install hdfs即可下载安装。

 

配置好HDFS Url:

HDFSUrl = "http://***.***.***.**:50070"

配置HDFS文件所在的目录:

inputpath = "/market/data/output/"

建立连接:

client = hdfs.Client(HDFSUrl, root='/')

对文件进行操作:

# 获取output文件夹下所有的文件夹名称
fs = client.list(inputpath)
for rootqvalues, dirsqvalues, filesqvalues in client.walk(qvalues_path):
    # 获取目录下 路径 文件夹  以及文件
    print rootqvalues
    print dirsqvalues
    print filesqvalues 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值