
Spark
文章平均质量分 85
ClaireQi
这个作者很懒,什么都没留下…
展开
-
Linux下运行带有Spark依赖的Python脚本
在Python中,你可以把应用写成Python脚本,但是需要使用Spark自带的bin/spark-submit脚本来运行。spark-submit脚本会帮我们引入Python程序的Spark依赖。这个脚本为Spark的PythonAPI配置好了运行环境。首先找到spark的安装目录,一般在Linux下,会将第三方软件安装到/opt目录下面。然后运行下述指令:/opt/spark/b...原创 2018-07-25 16:37:50 · 1585 阅读 · 0 评论 -
在spark上运行Python脚本遇到“ImportError: No module name xxxx”
在spark上运行Python脚本遇到“ImportError: No module name xxxx”这是因为运行Python脚本的集群上的Python环境里缺乏脚本运行需要的依赖。根据所需依赖的不同性质可以分为3类:(1)单个的*.py或者*.py[co](2)自建模块(3)自包含的依赖项(4)复杂依赖【1】只依赖于单个文件(only depend on a si...原创 2018-08-03 17:20:25 · 11099 阅读 · 2 评论 -
spark调优
【1】 spark.default.parallelism此参数用于设置每个stage经TaskScheduler进行调度时生成task的数量,此参数未设置时将会根据读到的RDD的分区生成task,即根据源数据在hdfs中的分区数确定,若此分区数较小,则处理时只有少量task在处理,前述分配的executor中的core大部分无任务可干。通常可将此值设置为num-executors*exec...原创 2018-08-16 14:23:23 · 198 阅读 · 0 评论 -
spark中使用repartition没有效果
在使用repartition()时出现下述问题:print(rdd.getNumPartitions())rdd.repartition(100)print(rdd.getNumPartitions())两次打印的结果相同产生上述问题的原因有两个:首先 repartition()是惰性求值操作,需要执行一个action操作才可以使其执行。其次,repartition()操作会...原创 2018-08-16 14:49:50 · 6173 阅读 · 0 评论 -
spark调用类内方法
在pyspark中调用类方法,报错Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transforamtion. SparkContext can only be used on the driver, not in co...转载 2018-08-16 15:26:26 · 3779 阅读 · 1 评论 -
python中直接将文件写入HDS
在项目中遇到使用spark中的saveAsTextFile()保存序列化后的文件到HDFS出现部分数据缺失因此希望可以通过python脚本直接将数据写入到HDFS中,尝试hdfs库失败后,发现pywebhdfs库可以实现这一功能。使用pywebhdfs库,直接将文件保存到HDFS中。>>> hdfs = PyWebHdfsClient(host='host',por...原创 2018-08-26 13:02:32 · 914 阅读 · 0 评论