
大数据
今夕何年-
java研发
展开
-
Spark2.x学习笔记(二) - Spark SQL
Spark-Sql 介绍1、spark 介绍Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。1> SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础。2> 能够在Scala中写SQL语句。支持简单的原创 2018-12-13 16:20:46 · 428 阅读 · 0 评论 -
Spark2.x学习笔记(三) - Spark Streaming
SparkStreaming简介SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以存放在文件系统,数据库...原创 2018-12-19 17:03:17 · 403 阅读 · 0 评论 -
Spark2.x 学习笔记(一) - Spark Core
Spark 介绍Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是Scala编写,方便快速编程。Spark与MapReduce的区别1. Spark 基于内存迭代处理数据,MR基于磁盘迭代处理数据2. Spark 粗粒度资源申请,MR是细粒度资源申请3. MR中只有mapper,reducer,相当于spark中的map和reduceByKey两个算子...原创 2018-12-10 15:15:10 · 1966 阅读 · 0 评论 -
kafka + sparkStreaming 学习笔记
Kafka简介kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步通信。kafka生产消息、存储消息、消费消息kafka 有 producer、comsumer、broker、topic 和 zookeeper 组成。producer : 消息生产者...原创 2018-12-29 09:28:35 · 12949 阅读 · 0 评论