首先需要借用第三方库pyhdfs
创建一个Hadoop连接对象
hdfs_client = pyhdfs.HdfsClient(hdfs_ip,hdfs_port,hdfs_user)。
hdfs_ip:ip地址;hdfs_port:端口;hdfs_user:用户名
还需要知道文件路径,比如:/hdoopTest/orderTest/xx.txt。
查看文件时使用的方法:
hdfs_client.listdir(‘/hdoopTest/orderTest’)
将文件拉到本地:
hdfs.client.copy_to_local('/hdoopTest/orderTest/xx.txt','/local_path/xx.txt')
将本地文件上传到Hadoop:
hdfs.client.copy_from_local('/local_path/2xx.txt','/hdoopTest/orderTest/xx.txt')
从Hadoop中读取数据
-
with hdfs.client.open(file)as f:
-
data_list = f.readlines( )
-
for data in data_list:
-
print(data.decode())