
Spark
ll_xiaobai
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark及Spark Streaming核心原理及实践
spark 生态及运行原理Spark 特点运行速度快 => Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。适用场景广泛 => 大数据分析统计,实时数据处理,图计算及机器学习。易用性 => 编写简单,支持80种以上的高级算子,支持多种语言,数据源丰富,可部署在多种集群中。容错性高=>Spark引进了弹性分布式数据集RDD转载 2020-07-09 16:16:57 · 481 阅读 · 0 评论 -
spark部署模式(资源调度模式)
1.资源调度模式1.1 local模式(本地)运行该模式非常简单,只需要把Spark的安装包解压后,改一些常用的配置即可使用,而不用启动Spark的Master、Worker守护进程( 只有采用集群的Standalone方式时,才需要这两个角色),也不用启动Hadoop的各服务(除非要用到HDFS文件系统)。Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地单机模式分三类:local: 只启动一个ex原创 2020-06-30 20:12:15 · 332 阅读 · 0 评论 -
Spark知识点总结
1.什么是spark?spark是基于内存计算的通用大数据并行计算框架,是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈,适用于不同场合的分布式场景,如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。2.Spark生态系统?SparkCore:spark的核心计算 主要RddSparkSQL:提供了类sql方式操作结构化半结构化数据。对历史数据进行交互式查询。(即...原创 2020-02-13 11:20:37 · 964 阅读 · 0 评论