
spark
文章平均质量分 80
OopsOutOfMemory
http://weibo.com/oopsoom
展开
-
Spark SQL 源码分析之 In-Memory Columnar Storage 之 cache table
Spark SQL缓存到内存中的数据的存储策略原创 2014-09-25 18:20:23 · 11766 阅读 · 0 评论 -
Spark 常见问题小结
1、WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito ensure that workers are registered and have sufficient memory当前的集群的可用资源不能满足应用程序所请求的资源。资源分2类: cores 和 ramCo原创 2014-11-06 19:43:02 · 4039 阅读 · 0 评论 -
sbt发布assembly解决jar包冲突问题 deduplicate: different file contents found in the following
一、问题定义最近在用sbt打assembly包时出现问题,在package的时候,发生jar包冲突/文件冲突问题,两个相同的class来自不同的jar包在classpath内引起冲突。具体是:我有一个self4j的jar, 还有一个hadoop-common-hdfs的jar包,其中hadoop-common-hdfs.jar内包含了self4j这个jar包,导致冲突。此类异常一般是由于打包不规范原创 2014-11-20 20:48:48 · 17019 阅读 · 2 评论 -
Run Test Case on Spark
本文讲述了如何运行Spark的测试用例原创 2014-08-14 19:03:43 · 5351 阅读 · 1 评论 -
Spark Executor Driver资源调度小结
Spark中Executor的生成策略原创 2014-08-23 01:08:12 · 25213 阅读 · 3 评论 -
Spark SQL UDF使用
spark sql udf编写及使用原创 2014-09-19 18:17:14 · 17700 阅读 · 0 评论 -
Spark的应用程序执行模型
Spark应用程序编写,执行应该注意的问题。原创 2014-08-05 19:18:47 · 3673 阅读 · 0 评论 -
Spark SQL with Hive
Spark1.1发布后会支持Spark SQL CLI , Spark SQL的CLI会要求被连接到一个Hive Thrift Server上,来实现类似hive shell的功能。原创 2014-07-09 22:29:46 · 15827 阅读 · 0 评论 -
Spark源码编译---Spark学习笔记1
要学习一个框架最好的方式就是调试其源代码。编译Spark 0.81 with hadoop2.2.0本机环境:1.eclipse kepler2.maven3.13.scala2.9.34.ubuntu12.04步骤:1. 先从网上下载spark0.81的源代码. 下载方式:_2. upzip v0.8.1-incubating.zip3. expo原创 2014-03-28 01:10:28 · 5505 阅读 · 5 评论 -
Spark RDD Action 详解---Spark学习笔记8
Spark RDD Action 详解配有实际例子原创 2014-04-04 17:46:20 · 13678 阅读 · 2 评论 -
Spark SQL 初探
早在Spark Submit 2013里就有介绍到Spark SQL,不过更多的是介绍Catalyst查询优化框架。经过一年的开发,在今年Spark Submit 2014上,Databricks宣布放弃Shark 的开发,而转投Spark SQL,理由是Shark继承了Hive太多,优化出现了瓶颈,如图: 今天把Spark最新的代码签了下来,测试了一下:1、编译Spar原创 2014-07-02 19:13:20 · 9363 阅读 · 0 评论 -
Spark实例TopN---Spark学习笔记11
Spark是基于内存的分布式计算框架,性能是shi原创 2014-05-14 18:06:17 · 16211 阅读 · 5 评论 -
Shark集群搭建配置
Shark是基于Spark与Hive之上的一种SQL查询引擎,本文将带你搭建Shark集群原创 2014-06-17 18:05:37 · 4652 阅读 · 0 评论 -
Spark SQL之External DataSource外部数据源(一)示例
一、Spark SQL External DataSource简介 随着Spark1.2的发布,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。 这使得Spark SQL支持了更多的类型数据源,如json, parquet, avro, csv格式。只要我们愿意,我们可以开发出任意的外部数据源来连接到Spark SQL。之前大家原创 2014-12-22 01:12:20 · 9510 阅读 · 0 评论 -
Spark操作hbase
在Spark是一种计算框架,在Spark环境下,不仅支持操作单机文件,HDFS文件,同时也可以用Spark对Hbase操作。 企业中数据源会从HBase取出,这就涉及到了读取hbase数据,本文为了尽可能的让大家能尽快实践和操作Hbase,使用的是Spark Shell 来进行Hbase操作。一、环境:Haoop2.2.0Hbase版本0.96.2-hadoop2, r158109原创 2014-07-01 01:28:21 · 20212 阅读 · 9 评论 -
Spark SQL Catalyst源码分析之Physical Plan
Spark SQL之Catalyst的物理计划,讲解了物理计划的产生过程,以及涉及到的策略。原创 2014-07-28 18:42:33 · 11616 阅读 · 0 评论 -
Spark SQL源码分析之核心流程
从源代码的角度来看一下Spark SQL的核心执行流程吧原创 2014-07-10 18:11:01 · 19956 阅读 · 7 评论 -
Spark SQL Catalyst源码分析之TreeNode Library
Spark SQL Catalyst的核心类库TreeNode详解,配有实例,图文并茂。原创 2014-07-24 16:05:36 · 10002 阅读 · 1 评论 -
Spark SQL Catalyst源码分析之Optimizer
Spark SQL 中Catalyst的核心优化器Optimizer源码剖析原创 2014-07-25 19:20:05 · 9262 阅读 · 0 评论 -
Spark SQL Catalyst源码分析之UDF
Spark SQL UDF 源码分析原创 2014-09-19 17:30:10 · 9438 阅读 · 0 评论 -
Spark SQL 源码分析之Physical Plan 到 RDD的具体实现
Spark SQL 物理计划到 RDD 的计算过程实现。原创 2014-07-29 18:04:09 · 9454 阅读 · 0 评论 -
Spark SQL Catalyst源码分析之SqlParser
本文以Catalyst源代码的角度解析Catalyst的解析器如何解析SQL的生成UnResolved LogicalPlan的。原创 2014-07-19 03:16:11 · 17883 阅读 · 9 评论 -
Spark SQL 源码分析系列文章
Spark SQL 源码分析系列文章,从整个SQL执行流程到各个环节的关键组件,以及Catalyst框架的讲解。原创 2014-07-29 09:46:46 · 35457 阅读 · 1 评论 -
Spark SQL之External DataSource外部数据源(二)源码分析
Spark SQL在Spark1.2中提供了External DataSource API,开发者可以根据接口来实现自己的外部数据源,如avro, csv, json, parquet等等。 在Spark SQL源代码的org/spark/sql/sources目原创 2014-12-22 01:12:30 · 12001 阅读 · 1 评论 -
Spark SQL 源码分析之 In-Memory Columnar Storage 之 in-memory query
Spark SQL源码分析之如何查询cache后的table原创 2014-10-02 13:16:47 · 6655 阅读 · 0 评论 -
Spark SQL Catalyst源码分析之Analyzer
本文详细介绍了Spark SQL的Catalyst里,Analyzer是如何Sql parser的解析的UnResolved逻辑计划,进行resolve的。原创 2014-07-22 00:24:01 · 10745 阅读 · 0 评论 -
Build Spark1.3.1 with CDH HADOOP
Build Spark1.3.1 with CDH HADOOP1、找到CDH的版本[root@web02 spark1.3]# hadoop versionHadoop 2.0.0-cdh4.7.0Subversion file:///var/lib/jenkins/workspace/CDH4.7.0-Packaging-Hadoop/build/cdh4/hadoop/2.0.0-cdh4原创 2015-04-20 16:39:53 · 2774 阅读 · 0 评论 -
sbt pom reader - sbt读取pom
sbt pom reader - sbt读取pomSpark为了依赖项的统一管理用了sbt pom reader这个插件,sbt编译发布也是从pom里读GAV了。 我记得老版本sbt的依赖项是写在project/SparkBuild.scala里的。这个工具在java/scala项目内很有使用场景。地址在:https://github.com/sbt/sbt-pom-reader1.配置插件在/ap原创 2015-04-20 12:05:01 · 3384 阅读 · 0 评论 -
Spark RDD Transformation 详解---Spark学习笔记7
这几天学习了Spark RDD transformation 和 action ,做个笔记记录下心得,顺便分享给大家。1. 启动spark-shell SPARK_MASTER=local[4] ./spark-shell.shWelcome to ____ __ / __/__ ___ _____/ /__ _\ \/原创 2014-04-04 16:09:41 · 22335 阅读 · 2 评论 -
RDD Dependency详解---Spark学习笔记9
RDD的最重要的特性之一就是血缘关系,血缘关系描述了原创 2014-04-16 18:38:43 · 6986 阅读 · 0 评论 -
Spark计算Pi运行过程详解---Spark学习笔记4
上回运行了一个计算Pi的例子那么Spark究竟是怎么执行的呢?我们来看一下脚本#!/bin/shexport YARN_CONF_DIR=/home/victor/software/hadoop-2.2.0/etc/hadoopSPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubat原创 2014-03-31 00:09:46 · 11105 阅读 · 2 评论 -
Spark Streaming的WindowedDStream
Spark Streaming的 窗口操作的类WindowedDStream下面我们一起探究一下,Spark Streaming怎么实现chu原创 2014-04-15 18:34:48 · 4582 阅读 · 0 评论 -
Spark Streaming的窗口操作
1.Spark Streaming的Window Operation可以理解为定时的进行一定时间段内的数据的处理。原创 2014-04-15 18:16:24 · 21204 阅读 · 0 评论 -
Indigo m2e
由于需要调试spark,需要scala ide在eclipse中。但是最新版本的scala ide 调试spark0.81(用的是scala2.9.3),在eclipse导入会报错,因为最新版本的scala ide 支持的是2.10.3安装scala ide http://scala-ide.org/download/current.html还是不支持kepler.于是原创 2014-03-31 14:15:57 · 2014 阅读 · 0 评论 -
Spark里几个重要的概念及术语
1. Application客户端的应用程序,原创 2014-04-16 17:27:54 · 15576 阅读 · 1 评论 -
Spark Streaming初探
Spark Streaming是一个基于Spark核心的扩展。主要y原创 2014-04-14 18:32:19 · 9405 阅读 · 4 评论 -
Spark计算Pi---Spark学习笔记2
话接上回Spark学习笔记1-编译源代码,已经成功编译了spark on yarn启动yarnvictor@victor-ubuntu:~/software/hadoop-2.2.0/sbin$ ./start-all.sh This script is Deprecated. Instead use start-dfs.sh and start-yarn.shStarting n原创 2014-03-28 22:53:17 · 4252 阅读 · 0 评论 -
spark应用开发---Spark学习笔记6
如何部署和开发一个spark应用程序呢?首先要选好环境,我用的是incubator-spark-0.8.1-incubating,那么对应的是scala版本是2.9.3。如果使用maven或者sbt构建,则可以使用gavgroupId = org.apache.sparkartifactId = spark-core_2.9.3version = 0.8.1-incubatin原创 2014-04-03 00:05:54 · 3779 阅读 · 0 评论 -
spark in eclipse---Spark学习笔记3
想要调试源代码,还是要放到eclipse里面去。先生成eclipse项目,下载依赖包victor@victor-ubuntu:~/software/incubator-spark-0.8.1-incubating$ mvn eclipse:eclipse[INFO] Scanning for projects...[INFO] ---------------------------原创 2014-05-20 11:45:43 · 5615 阅读 · 2 评论 -
Spark Hadoop集群部署与Spark操作HDFS运行详解---Spark学习笔记10
目前spark的Run on的hadoop版本大多是hadoop2以上,但是实际上各个公司的生产环境不尽相同,用到2.0原创 2014-04-21 18:15:59 · 29739 阅读 · 2 评论