自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

翻译 《spark实战》笔记08--应用库--Spark Streaming

来源:《spark实战》讲义 [1 ] Spark Streaming介绍 Spark Streaming属于Spark的核心api, 它支持高吞吐量、支持容错的实时流数据处理。 它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, reduce, join, window等操作,还可以直接使用内置的机器学习...

2019-06-17 16:00:47 223

翻译 《spark实战》笔记07--应用库--Spark SQL

来源:《spark实战》讲义 [1 ]Spark SQL SparkSQL提供了完整的数据写入支持,从而补全了多数据源互操作的最后一块重要拼图。可以与Hive、 Parquet、 JSON、 Pandas等多种数据源间的任意转换,正是这一增强的直接成果。 Spark SQL的特点: 引入了新的RDD类型SchemaRDD,可以象传统数据库定义表一样来定义SchemaRDD, Schem...

2019-06-17 15:39:13 215

翻译 《spark实战》笔记06--应用库--整体介绍

来源:《spark实战》讲义 [1 ]Spark之上提供了四种应用库: Spark SQL 是为处理结构化数 据而设计的模块 Spark Streaming 可以很容易 地创建可扩展和容错性的流 式应用 MLlib 是Spark的可扩展机器 学习库 GraphX 是Spark的并行图计算 API [2 ]Spark序列化: Spark默认是使用Java的 ObjectOutputS...

2019-06-17 11:44:05 202

翻译 《spark实战》笔记05--核心模块--Storage、Shuffle

来源:《spark实战》讲义 [1 ] Storage Storage模块主要分为两层: • 通信层: storage模块采用的是master-slave结构来实现通信层, master和slave之间传输控制信息、状态信息,这些都是通过通信层来实现的。 • 存储层: storage模块需要把数据存储到disk或是memory上面,有可能还需replicate到远端,这都是由存储层来实现和提...

2019-06-17 11:27:54 239

翻译 《spark实战》笔记04--核心模块--Scheduler

来源:《spark实战》讲义 [1 ] Scheduler整体介绍 • Scheduler模块作为Spark最核心的模块之一,充分体现了Spark与MapReduce的不同之处,体现了Spark DAG思想的精巧和设计的优雅。 • Scheduler模块分为两大主要部分, DAGScheduler和TaskScheduler。 [2 ] Scheduler之DAGScheduler DAGS...

2019-06-17 11:20:10 387

翻译 《spark实战》笔记03--核心模块--RDD

来源:《spark实战》讲义 [1 ]Spark的关键运算组件 Spark的核心组件包括RDD、 Scheduler、 Storage、 Shuffle四部分:  RDD是Spark最核心最精髓的部分,spark将所有数据都抽象成RDD。  Scheduler是Spark的调度机制,分为DAGScheduler和TaskScheduler。  Storage模块主要管理缓存后的RDD...

2019-06-17 10:15:26 351

翻译 《spark实战》笔记02--Spark基础概念

来源:《spark实战》讲义 [1 ] Spark生态系统 [2 ] Spark特点 先进架构 • Spark采用Scala语言编写,底层采用了actor model的akka作为通讯框架,代码十分简洁高效。 • 基于DAG图的执行引擎,减少多次计算之间中间结果写到Hdfs的开销。 • 建立在统一抽象的RDD(分布式内存抽象)之上,使得它可以以基本一致的方式应对不同的大数据处理场...

2019-06-17 09:37:18 230

翻译 《spark实战》笔记01--Spark与Hadoop联系

《spark实战》笔记总结 来源:《spark实战》讲义 [1.1 ] spark与hadoop联系 Spark可以使用YARN作为它的集群管理器,并且可以处理HDFS的数据。这 对于已经部署Hadoop集群的用户特别重要,毕竟不需要做任何的数据迁移 就可以使用Spark的强大处理能力。 [ 1.2] Spark与Hadoop的区别 框架: MR:由Map和Reduce两个阶段,并通...

2019-06-17 09:02:14 320

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除