
Spark学习
幸运的Alina
这个作者很懒,什么都没留下…
展开
-
Spark之旅(一):Spark shell 启动
最近开始琢磨Spark ,那么录下文章做下记录,先从启动Spark shell 开始吧,Spark集群是已经在服务器搭好了,下面展示如何开启Spark shell : 分布式集群环境下的spark shell 启动 ./spark-shell --master yarn --deploy-mode client ...原创 2018-11-09 15:44:44 · 5150 阅读 · 0 评论 -
在Python的环境下对Spark文件操作
在实际使用Spark做集群运算的时候我们会遇到很多实际的问题,特记录下来,本文主要讲解关于Spark读文件为RDD ,然后RDD转DataFrame,然后将RDD存为文件,以及如何保存DataFrame到文件 from pyspark.sql import SparkSession def CreateSparkContext(): # 构建SparkSession实例对象 ...原创 2019-06-20 09:19:33 · 1543 阅读 · 0 评论 -
如何将编写的py文件提交到spark并在集群下执行job
没学过java的时候用Spark可能一开始就会直接用Python对接,因为如果是创建scala语言的话,会存在很多问题,包括生成scala类或者object,以及最终在idea里面编译成jar包,因为需求紧急,所以就直接用Python来写了,那么将写完的 python文件如果只是在某个集群中的一台机器上运行,那么会发现实际整个运转都是在本地执行的,并没有做到集群运算,所以这里需要使用的就是进入到s...原创 2019-06-20 09:35:56 · 3072 阅读 · 1 评论 -
Spark读取文件如何区分HDFS文件和本地文件
在Hadoop集群上配置的Spark如果直接读取文件默认的是读取HDFS上的文件,那么如果想要读取本地的文件就不能直接写还需要说明如下: from pyspark.sql import SparkSession def CreateSparkContext(): # 构建SparkSession实例对象 spark = SparkSession.builder \ ...原创 2019-06-23 16:06:38 · 2018 阅读 · 1 评论 -
pyspark中读取文件后的RDD操作
本文记录下在python环境中对RDD的一些操作方法 1. 创建RDD 关于读取文件创建RDD的方法在前面文章已经介绍过来,这里就不做介绍了。 还有一种自定义的 data_rdd = sc.parallelize([('Alina',26),('Tom',22),('Sky',12),('Blue',21)]) 2. lambda 表达式 在RDD重最常用到的就是lambda和...原创 2019-06-23 16:47:15 · 3486 阅读 · 0 评论 -
Pyspark中的DataFrame操作汇总
1. 读取csv文件为DataFrame 通过Pyspark直接读取csv文件可以直接以DataFrame类型进行读取,通过利用schema模式来进行指定模式。 假设我有一个.csv文件,里面有四列数据,长这样, 该.csv文件没有header。分别为用户id,电影id, 电影评分,时间戳 通过导入Spark SQL中引入数据类型, import pyspark.sql.type...原创 2019-07-07 16:57:16 · 17990 阅读 · 0 评论 -
解决在Hive建表时root用户对HDFS无权限问题
在使用pyspark 将DataFrame的数据插入到HIve中时,遇到了root账号无法insert数据到hive中,报错信息如下: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=root, access=WRIT...原创 2019-07-02 11:37:22 · 5087 阅读 · 0 评论 -
Python运行Spark集群环境踩坑记录
这一段时间一直在弄spark集群,然后开发使用的是python开发,其中环境的坑多到几度想令我放弃,这也就是公司没有配置专业搭环境的工程师的弊端,遇到事情了只能自己解决,于是自己记录下不同的坑,方便自己以后排雷,也放出来给有需要的人。 1. 在python中配置环境变量注意点 首先就是python环境在集群中必须一致,如果是采用os.environ的方法的话,不然你就会遇到如下的报错 解决...原创 2019-07-07 12:39:58 · 5118 阅读 · 0 评论