- 本项目是在服务器上,利用python对hdfs和spark,进行读写操作。以下内容,是基于服务器上,已经搭建好的hadoop/spark基础上,所以参考性有限,请见谅。搭建系统,不是很熟悉,单机spark请参照window+spark+python,或者公众号书圈搜Windows和PC机上搭建Spark+Python开发环境的详细步骤。
- 主要内容:利用python将数据保存到hadoop的hdfs目录下,利用spark读取hdfs目录下内容,然后做sql统计。
(一)、库安装
基于python3.5/python3.6
pip3 install hdfs
pip3 install pyspark
(二)、加载数据到hdfs
利用python,通过hdfs模块,连接集群,然后上传数据到hdfs目录。
关于python读写hdfs数据,请参照: