
Spark
文章平均质量分 74
OnlyQi
我是一只蜗牛
展开
-
分布式数据处理系统的基本原则与设计理念
本文涉及ACID,CAP,和BASE的含义。原创 2020-10-07 10:24:05 · 615 阅读 · 0 评论 -
Spark学习笔记六(Spark和Hadoop的关系)
Spark is an in-memory distributed computing engine.Hadoop is a framework for distributed storage (HDFS) and distributed processing (YARN).Spark can run with or without Hadoop components (HDFS/YARN)Distributed Storage:Since Spark does not have its own d转载 2020-10-06 21:15:25 · 256 阅读 · 0 评论 -
Spark学习笔记五(Spark SQL,DataFrame和Dataset)
一些操作对所有类型的RDD都可以使用,而另一些操作只能在特殊的RDD类型使用。例如只有对于元素都是数字的RDD才能计算平均值。在下面的操作都是在RDD上通用的操作。Transformations map() Map函数和MapReduce中的map意义相同,即返回一个新RDD,其元素是输入RDD中元素,按照某个规则得到的新元素。输入输出的RDD中包含的元素是一一对应的。 例如下例中,原创 2016-02-18 16:28:35 · 2524 阅读 · 0 评论 -
Spark学习笔记二(SparkSessions)
正如连接到数据库需要定义连接字符串并使用session一样,要连接到Spark需要使用SparkContext或SparkSession。SparkContext is an entry point to Spark programming with RDD and to connect to Spark Cluster, Since Spark 2.0 SparkSession has been introduced and became an entry point to start programm原创 2020-10-06 07:16:16 · 1170 阅读 · 0 评论 -
Spark学习笔记四(RDD Persistency)
为什么要Persistency 当使用transformations和actions定义好数据操作并执行后,Spark会开始执行数据处理。这期间产生的一些中间RDD全部由Spark自动产生并消除,不需要用户关心。 但有时我们希望能够重用一些RDD来提高效率。例如新建了一个RDD1,之后调用map()生成了RDD2,最后又分别对RDD2调用了count()和reduce()。Spark会从RDD1原创 2016-02-18 17:38:06 · 1075 阅读 · 0 评论 -
Spark学习笔记三(RDD)
An RDD in Spark is simply a distributed collection of objects. Each RDD is split into multiple partitions, which may be computed on different nodes of the cluster.RDD的特点是在内存中运行,因此速度很快。且RDD数据由Spark自动分散到原创 2016-02-17 16:47:02 · 748 阅读 · 0 评论 -
Spark学习笔记一(简介)
安装并使用pyspark进入python shell后,就可以开始使用spark 了。 lines = sc.textFile(“README.md”) # Create an RDD called lines pythonLines = lines.filter(lambda line: “Python” in line) “README.md”是安装spark后,在安装目录中的一个文件原创 2016-02-17 16:28:19 · 1258 阅读 · 0 评论