chijinyan-优快云博客

翻译《spark实战》笔记08--应用库--Spark Streaming

来源：《spark实战》讲义 [1 ] Spark Streaming介绍 Spark Streaming属于Spark的核心api，它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源，使用简单的api函数比如 map, reduce, join, window等操作，还可以直接使用内置的机器学习...

2019-06-17 16:00:47 223

翻译《spark实战》笔记07--应用库--Spark SQL

来源：《spark实战》讲义 [1 ]Spark SQL SparkSQL提供了完整的数据写入支持，从而补全了多数据源互操作的最后一块重要拼图。可以与Hive、 Parquet、 JSON、 Pandas等多种数据源间的任意转换，正是这一增强的直接成果。 Spark SQL的特点: 引入了新的RDD类型SchemaRDD，可以象传统数据库定义表一样来定义SchemaRDD， Schem...

2019-06-17 15:39:13 215

翻译《spark实战》笔记06--应用库--整体介绍

来源：《spark实战》讲义 [1 ]Spark之上提供了四种应用库： Spark SQL 是为处理结构化数据而设计的模块 Spark Streaming 可以很容易地创建可扩展和容错性的流式应用 MLlib 是Spark的可扩展机器学习库 GraphX 是Spark的并行图计算 API [2 ]Spark序列化： Spark默认是使用Java的 ObjectOutputS...

2019-06-17 11:44:05 202

翻译《spark实战》笔记05--核心模块--Storage、Shuffle

来源：《spark实战》讲义 [1 ] Storage Storage模块主要分为两层： • 通信层： storage模块采用的是master-slave结构来实现通信层， master和slave之间传输控制信息、状态信息，这些都是通过通信层来实现的。 • 存储层： storage模块需要把数据存储到disk或是memory上面，有可能还需replicate到远端，这都是由存储层来实现和提...

2019-06-17 11:27:54 239

翻译《spark实战》笔记04--核心模块--Scheduler

来源：《spark实战》讲义 [1 ] Scheduler整体介绍 • Scheduler模块作为Spark最核心的模块之一，充分体现了Spark与MapReduce的不同之处，体现了Spark DAG思想的精巧和设计的优雅。 • Scheduler模块分为两大主要部分， DAGScheduler和TaskScheduler。 [2 ] Scheduler之DAGScheduler DAGS...

2019-06-17 11:20:10 387

翻译《spark实战》笔记03--核心模块--RDD

来源：《spark实战》讲义 [1 ]Spark的关键运算组件 Spark的核心组件包括RDD、 Scheduler、 Storage、 Shuffle四部分：  RDD是Spark最核心最精髓的部分，spark将所有数据都抽象成RDD。  Scheduler是Spark的调度机制，分为DAGScheduler和TaskScheduler。  Storage模块主要管理缓存后的RDD...

2019-06-17 10:15:26 351

翻译《spark实战》笔记02--Spark基础概念

来源：《spark实战》讲义 [1 ] Spark生态系统 [2 ] Spark特点先进架构 • Spark采用Scala语言编写，底层采用了actor model的akka作为通讯框架，代码十分简洁高效。 • 基于DAG图的执行引擎，减少多次计算之间中间结果写到Hdfs的开销。 • 建立在统一抽象的RDD（分布式内存抽象）之上,使得它可以以基本一致的方式应对不同的大数据处理场...

2019-06-17 09:37:18 230

翻译《spark实战》笔记01--Spark与Hadoop联系

《spark实战》笔记总结来源：《spark实战》讲义 [1.1 ] spark与hadoop联系 Spark可以使用YARN作为它的集群管理器，并且可以处理HDFS的数据。这对于已经部署Hadoop集群的用户特别重要，毕竟不需要做任何的数据迁移就可以使用Spark的强大处理能力。 [ 1.2] Spark与Hadoop的区别框架： MR：由Map和Reduce两个阶段，并通...

2019-06-17 09:02:14 320

u014149997的博客