
spark
文章平均质量分 63
weipanp
这个作者很懒,什么都没留下…
展开
-
maven编译spark1.2 on hadoop-2.6.0
1、安装maven(1)设置MAVEN_HOME(2)将$MAVEN_HOME/bin参加PATH变量。(3)设置maven_opts内存参数export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"若不运行,编译时必定出现如下错误,因为spark编译需要很大的内存原创 2015-03-09 08:58:39 · 1317 阅读 · 0 评论 -
spark部署一台机器时sparkstreaming无结果数据打印的问题
如:bin/run-example org.apache.spark.examples.streaming.NetworkWordCount localhost 9999此时默认 --master 为 local . 这看起来毫无问题,但我在一台1核1G的主机上测试该样例,却永远无法成功。 原因这位老兄已道出:NoteI experienced exactly the sa原创 2015-06-02 15:27:27 · 1946 阅读 · 0 评论 -
IDEA调试sparksql,打包并提交运行
1、创建一个新的工程,参考spark的windows开发环境搭建2、添加依赖(1)scala依赖 org.scala-lang scala-library ${scala.version} org.scala-lang scala-compiler ${scala.version} org.scala-lang scala-reflect原创 2015-04-17 16:27:13 · 6383 阅读 · 0 评论 -
Spark 学习资源收集
目录[-](一)spark 相关安装部署、开发环境(二)spark 架构、原理与编码(三)spark 监控与管理(四)YARN & spark(五)spark 数据平台架构(六)spark 应用与实践(七)spark 机器学习实践(八)Scala 学习指北(九)Spark book附:(一)spark 相关安装部署、开发环境 1、Spark 伪分布式 & 全分布式 安装指南转载 2015-04-17 10:48:49 · 1303 阅读 · 0 评论 -
Spark源码IDEA远程调试
我们在编写Spark Application或者是阅读源码的时候,我们很想知道代码的运行情况,比如参数设置的是否正确等等。用Logging方式来调试是一个可以选择的方式,但是,logging方式调试代码有很多的局限和不便。下面是介绍如何通过IDE来远程调试Spark的Application或者是Spark的源码。 本文以调试Spark Application为例进行说明,本文用到的IDE是I原创 2015-04-20 17:13:23 · 972 阅读 · 0 评论 -
spark的windows开发环境搭建
Spark1.2.1开发环境搭建(适合windows环境)更多01.环境准备下载scala并安装,最好下载imsi版直接双击安装2.IDEA的安装官网jetbrains.com下载IntelliJ IDEA,有Community Editions 和& Ultimate Editions,前者免费,用户可以选择合适的版本使用。根据安装指导安装IDEA后,需要原创 2015-04-14 10:43:05 · 2415 阅读 · 0 评论 -
Windows + IDEA + SBT 打造Spark源码阅读环境
Spark源码阅读环境的准备Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。因此,Spark源码阅读的IDE理所当然的选择了IDEA。本文介绍的是Windows下的各项配置方法(默认已经装了java,JDK)。下面列举搭建此环境需要的各个组件:IDEA,有两个版本:Ultim原创 2015-04-14 15:55:46 · 638 阅读 · 0 评论 -
spark1.2.1下的sql测试
安装了spark之后,可以在 shell中执行Spark SQL。Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数据类型,它就像是关系型数据库里面的一张表。它可以从原有的RDD创建,也可以是Parquet文件,最重要的是它可以支持用HiveQL原创 2015-04-14 11:26:09 · 495 阅读 · 0 评论 -
sparkSQL1.2.1入门之七:ThriftServer和CLI
spark1.2相较于spark1.0,最大的差别就在于spark1.1增加了万人期待的CLI和ThriftServer。使得hive用户还有用惯了命令行的RDBMS数据库管理员很容易地上手sparkSQL,在真正意义上进入了SQL时代。下面先简单介绍其使用,限于时间关系,以后再附上源码分析。1:ThriftServer和CLI的命令参数A:令人惊讶的CLI刚部署好spark1.2就迫转载 2015-04-15 17:54:14 · 942 阅读 · 0 评论 -
比较全的Spark中的函数使用及编程模型
1. Spark中的基本概念在Spark中,有下面的基本概念。Application:基于Spark的用户程序,包含了一个driver program和集群中多个executorDriver Program:运行Application的main()函数并创建SparkContext。通常SparkContext代表driver programExecutor:为某Applicati转载 2015-04-16 14:41:36 · 3163 阅读 · 0 评论 -
SparkStreaming的worldCount实例
1、搭建好spark环境,sparkstreaming不需要什么特殊配置即可以使用2、SparkStreaming简介SparkStreaming是实时计算框架,它的数据源可以是socket或kafka等各种消息组件,具体详细的知识不多赘述3、实例import org.apache.spark._import org.apache.spark.storage.StorageL原创 2015-06-02 15:16:34 · 905 阅读 · 0 评论