
pyspark excutor端数据处理
对excutor端数据处理或其它类型数据应用到excutor端
飞华1993
南京师范大学博士生
展开
-
pyspark 数据读写
dataframe数据保存创建数据output_df = sqlContext.createDataFrame( [{'a': [2, 3, 4], 'b': [1, 2, 3], 'c': ['a', 'b', 'c'], 'd': ['a','b','c']}, {'a': [3,4,5], 'b': [4,5,6], 'c': ['c','c','d'], 'd': ['c','c','d']}])数据展示output_df.show()原创 2020-06-05 16:52:05 · 1204 阅读 · 0 评论 -
pyspark系统学习4——数据建模
对于任意一个数据集都是未知的,不管数据从何而来,都需要自己测试并且证明数据处于干净过滤的状态,不然不应该信任这些数据,也不应该用这些数据来建模。数据可以是重复数据、为观测数据和异常数据,可以有不存在的地址、错误的电话号码和区号、不准确的地理坐标、错误的日期、不正确的标签、大小写字母混乱、尾随空格以及许多其他更细小的问题。不管是数据科学家还是数据工程师,主要工作都应该是清理数据,这样才能够建立起...原创 2020-01-24 22:45:40 · 385 阅读 · 0 评论 -
pyspark系统学习3——DataFrame
DataFrame是一种不可变的分布式数据集,这种数据集被组织成指定的列,类似于关系数据库中的表。通过在分布式数据集上施加结构,让Spark用户利用Spark SQL来车讯结构化的数据或使用Spark表达式方法(而不是lambda)。1.python到RDD之间的通信每当使用RDD执行PySpark程序时,潜在地需要巨大地开销来执行作业。如图在PySpark驱动器中...原创 2020-01-22 15:40:33 · 664 阅读 · 0 评论 -
pyspark系统学习2——弹性分布式数据集
弹性分布式数据集(RDD)不仅是一组不可变的JVM对象的分布集,可以执行高速运算,而且是Apache Spark的核心。该数据集基于关键字将数据集划分成块,同时分发到执行器节点。这样做可以使此类数据集能够高速执行运算。另外,RDD将跟踪应用于每个块的转换,以加快计算速度。1.RDD运行方式1.1创建RDD Pyspark中,有两种方式创建RDD ...原创 2020-01-22 13:44:01 · 498 阅读 · 0 评论 -
pyspark系统学习1——spark介绍
Spark发展 Spark API历史演变图 Dataframe和Dataset API的同意使创建向后兼容的重大改变成为可能。这是Apache Spark2.0成为主要版本。DataFrame和Dataset都属于新的Dataset API,提供了一种类型安全的面向对象的编程接口。通过将表达式和数据字段暴露给查询计划器和Project Tungsten的...原创 2020-01-20 17:40:14 · 256 阅读 · 0 评论 -
pyspark rdd操作
rdd添加索引rdd.zipWithIndex()添加索引后,rdd转成dataframe会只有两列,以前的rdd所有数据+索引数据,需要将rdd变化为多列def getOneDF(x): return x[0]['a'],x[0]['b'],x[0]['c'],x[0]['d'],x[1]a.map(getOneDF).toDF().show()dataframe添...原创 2020-01-10 15:10:29 · 1070 阅读 · 0 评论 -
读取hdfs上的image数据,包括csv,pickle和tfrecord类型
数据初始化output_images = output + "/images"output_labels = output + "/labels"imageRDD = NonelabelRDD = None读取CSV数据def fromCSV(s): """将csv数据转化为vector""" return [float(x) for x in s.split(','...原创 2020-01-08 16:21:24 · 970 阅读 · 2 评论 -
pyspark将本地数据转化为方便在hdfs上读取的分布式数据
以mnist数据为例读取mnist数据from tensorflow.contrib.learn.python.learn.datasets import mnistwith open(input_images, 'rb') as f: images = numpy.array(mnist.extract_images(f))创建RDD数据imageRDD = sc...原创 2020-01-08 16:10:53 · 590 阅读 · 0 评论