
spark
chx3515
这个作者很懒,什么都没留下…
展开
-
spark实例:用spark-submit运行spark程序
本文记录了使用intellij idea新建项目、开发应用程序、打包应用程序,并使用通过spark-submit运行应用程序的过程。过程如下:1、新建项目:选择File->New Project ->Scala ->Non-SBT,next后输入 Project name:chx3515等信息,如下图:2、为项目添加spark jar包:选中项目chx3515后,选择File-原创 2014-12-17 00:18:53 · 3258 阅读 · 0 评论 -
Spark Streaming初探
Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力,它可以接收来自Kafka,Flume,Twitter和TCP Socket的数据源。 SparkStreaming是将流式计算分解成一系列短小的批处理作业,也就是将输入数据按照batch size(如5秒)分成一段一段的数据,每一段数据都转换成Spark中的RDD,原创 2014-12-20 23:47:58 · 596 阅读 · 0 评论 -
spark sql读取hive数据时报找不到mysql驱动的解决办法
spark sql读取hive数据时报找不到mysql驱动原创 2014-12-08 23:39:22 · 2752 阅读 · 0 评论 -
Spark Streaming的三种运用场景
Spark Streaming共有三种运用场景,分为:无状态操作、状态操作、window操作。下面分别描述下本人对这三种运用场景的理解。1、无状态操作 只关注当前新生成的小批次数据,所有计算都只是基于这个批次的数据进行处理。 一个批次的数据,我们将这个批次的时间假设得长一些,比如说一天。这样的话,一个批次就是在一天时间内生成的数据,可以理解为银行系统中贷原创 2014-12-25 22:54:21 · 2446 阅读 · 0 评论 -
使用IntelliJ IDEA编译spark-1.3.0源码
1、下源spark源码spark-1.3.0.tgz,并解压;2、打开IntelliJ IDEA,在欢迎界面上,选择“ImportProject”。3、在“Select file ordirectory to import”界面中,找到第1步所解压出来的spark-1.3.0源码的根目录下的pom.xml文件。4、在“Import project原创 2015-03-23 17:08:13 · 1605 阅读 · 1 评论