
spark
盛装吾步
这个作者很懒,什么都没留下…
展开
-
eclipse + maven + scala+spark环境搭建
一、配置eclipse + maven + scala环境1. 在Eclipse Market中安装Scala IDE、Maven 2. 安装m2e-scala(图中的url是:http://alchim31.free.fr/m2e-scala/update-site/) 二、测试eclipse+m原创 2017-11-16 15:42:37 · 976 阅读 · 0 评论 -
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南
概述Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如map,reduce,join,window等的高级函数组成的复杂算法处理. 最终, 处理后的数据可以输出到文件系统, 数据库以及实时仪表盘翻译 2017-11-22 15:06:46 · 1405 阅读 · 0 评论 -
Spark源码解读之SparkContext初始化
SparkContext初始化是Driver应用程序提交执行的前提,这里以local模式来了解SparkContext的初始化过程。 本文以 val conf = new SparkConf().setAppName(“mytest”).setMaster(“local[2]”) val sc = new SparkContext(conf) 为例,打开debug模式,然后进行分析。 一转载 2018-01-04 19:01:00 · 1717 阅读 · 0 评论 -
spark伪分布standalone搭建
一.环境准备 jdk 1.8.0 hadoop2.7.3 伪分布式部署 scala 2.11.8 支持spark2.0.1及以上版本 spark2.1.1二.Spark安装模式(本文伪分布式) spark有以下几种安装模式,每种安装模式都有自己不同的优点和长处。 local(本地模式): 常用于本地开发测试,本地还分为local单线程和local-cluster多线程; standalone(集群...原创 2017-12-05 16:26:04 · 2449 阅读 · 0 评论 -
spark的kafka的低阶API createDirectStream
大家都知道在spark1.3版本后,kafkautil里面提供了两个创建dstream的方法,一个是老版本中有的createStream方法,还有一个是后面新加的createDirectStream方法。关于这两个方法的优缺点,官方已经说的很详细(http://spark.apache.org/docs/latest/streaming-kafka-integration.html),总之就是cr...转载 2018-03-08 14:21:21 · 852 阅读 · 0 评论 -
解决Spark应用日志级别设置
最近在研究Spark的相关知识,本地搭建了一个开发环境Windows7+Eclipse+JDK1.7。一. 日志效率原因开发时,控制台输出一大堆日志信息,严重影响查看日志效率。从控制台输出日志我们可以看出,应用程序是默认加载Spark-core包下面的log4j-defaults.properties日志文件。查看log4j-defaults.properties文件由上图可知,Spark-cor...转载 2018-03-01 14:07:16 · 6857 阅读 · 0 评论 -
Spark 核心 RDD 剖析
本文将通过描述 Spark RDD ——弹性分布式数据集(RDD,Resilient Distributed Datasets)的五大核心要素来描述 RDD,若希望更全面了解 RDD 的知识,请移步 RDD 论文:RDD:基于内存的集群计算容错抽象RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示...转载 2018-03-06 09:52:37 · 775 阅读 · 0 评论