如果各位目前有用到大数据技术,相信很多的结果写在hdfs是最方便也最快速的。
本篇博客就主要讲一下怎么利用python直接去连接HDFS文件系统,并对文件进行操作。
Python连接hbase需要一个三方库(这里python版本2.7)hdfs,利用pip install hdfs即可下载安装。
配置好HDFS Url:
HDFSUrl = "http://***.***.***.**:50070"
配置HDFS文件所在的目录:
inputpath = "/market/data/output/"
建立连接:
client = hdfs.Client(HDFSUrl, root='/')
对文件进行操作:
# 获取output文件夹下所有的文件夹名称
fs = client.list(inputpath)
for rootqvalues, dirsqvalues, filesqvalues in client.walk(qvalues_path):
# 获取目录下 路径 文件夹 以及文件
print rootqvalues
print dirsqvalues
print filesqvalues