spark
二の少
进击的程序猿
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pyspark:win10本地安装pyspark环境(hadoop2.7.7+pyspark2.4.3+spark2.4.3)
1.下载地址(官方下载太慢了,用镜像下载较快)https://mirrors.tuna.tsinghua.edu.cn/apache/下载hadoop2.7.7,pyspark2.4.3,spark2.4.3版本2.解压压缩包如果在win10本地运行,需要将这两个文件拷贝到hadoop目录的bin目录下hadooponwindows-master\bin中的winut...原创 2019-07-20 13:47:23 · 1655 阅读 · 1 评论 -
pyspark:创建dataFrame并查询数据
(1)创建json的RDD文件,路径文件名不能以数据开头(\会作为转义字符,需要将路径中的\进行转义)strjson=sc.parallelize(“**”)(或者strjson=sc.textFile(E:\data.txt))(2)创建dataFrame Swimjson=spark.read.json(strjson)(3)创建临时表括号中的为表名Swimjso...原创 2019-07-20 23:52:38 · 1432 阅读 · 0 评论
分享