Python读写hadoop文件

本文介绍了如何使用Python库pyhdfs进行Hadoop集群上的文件读取、写入、上传及下载等基本操作,并提供了具体的方法示例。

最近经常需要操作hadoop集群进行文件读、写、上传、下载等

这里总结一下使用方法:

首先需要借助三方库pyhdfs

创建一个hadoop连接对象

hdfs_client = pyhdfs.HdfsClient(hdfs_ip,hdfs_port,hdfs_user)

假设hadoop现有目录:/home/data/下有一个文件2018-06-28.out

那么我们如何查看该目录下的文件呢?

方法(类似于os)如下:

hdfs_client.listdir(‘/home/data’)

如果要将该文件拉到本地怎么办?

hdfs.client.copy_to_local('/home/data/2018-06-28.out','/local_path/2018-06-28.out')

如果要将本地的一个文件上传到hadoop怎么办?

hdfs.client.copy_from_local('/local_path/2018-06-28.out','/home/data/2018-06-28.out')

如果要读取hadoop上文件内容怎么办?

with hdfs.client.open(file)as f:
    data_list = f.readlines( )
for data in data_list:
    print(data.decode())
随着工作中需求的变化,博客会持续更新

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值