
Spark
Evan_Gu
专注大数据可视化和可视分析相关的理论、方法与技术,探索行业中最佳实践与应用。
展开
-
Spark启动错误Exception in thread “main” java.lang.NoSuchMethodError: scala.collection.immutable.HashSet$
1 错误[error] (run-main-0) java.lang.NoSuchMethodError: scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashSet;java.lang.NoSuchMethodError: scala.collection.immutable.HashS原创 2015-10-22 19:44:51 · 11187 阅读 · 3 评论 -
Spark应用性能优化
通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容。性能监控工具【Spark监控工具】Spark提供了一些基本的Web监控页面,对于日常监控十分有用。Application Web UIhttp://master:4040(默认端口是4040,可以通过spark.ui.port修改)可获得这些信息:(1)stages和tasks调度情况;(2)RD转载 2016-05-26 10:05:18 · 517 阅读 · 0 评论 -
【Spark工作机制详解】 Shuffle机制
Shuffle是把一组无规则的数据尽量转换成一组具有一定规则的数据。原创 2016-02-28 10:24:26 · 744 阅读 · 0 评论 -
【Spark工作机制详解】容错机制
1 Lineage机制 2 CheckPoint机制原创 2016-02-28 10:22:24 · 939 阅读 · 0 评论 -
【Spark工作机制详解】 I/O 机制
Spark I/O 不仅需要考虑本地主机的I/O开销,还要考虑数据在不同主机之间到传输开销。 Spark的寻址方式也针对大数据发生改变。 1 序列化 2 压缩 3 Spark 块管理原创 2016-02-28 09:55:28 · 925 阅读 · 0 评论 -
【Spark工作机制详解】调度与任务分配
Spark 有多种运行模式: Local模式 Standlone模式 YARN模式 Mesos模式 1 Spark 应用之间到调用2 应用程序内Job的调用3 Stage 和 TaskSetMessager调度方式4 Task 调度原创 2016-02-28 09:49:50 · 1029 阅读 · 0 评论 -
Apriori的Spark算法
2014届全国高校云计算大赛技能赛 K-频繁项集挖掘并行化算法 环境描述: 本题目需要运行在 Apache Spark 1.0.1Apache Spark 1.0.1Apache Spark 1.0.1 Apache Spark 1.0.1Apache Spark 1.0.1 Apache Spark 1.0.1 Apache Spark 1.0.1Apache Spark 1.0.原创 2016-01-26 21:37:47 · 3579 阅读 · 1 评论 -
Spark 中 GraphX 指南(一)
问题导读1.什么是GraphX?2.如何将Spark和GraphX引入到项目中?3.从一个图中取出顶点特征加入到另外一个图中如何实现?Spark中文手册-编程指南GraphX编程指南GraphX是一个新的(alpha)Spark API,它用于图和并行图(graph-parallel)的计算。GraphX通过引入Resilient转载 2016-01-08 17:02:38 · 9761 阅读 · 0 评论 -
Spark开发环境之windows配置
1. 需要 Eclipse http://www.eclipse.org/downloads/ Scala IDE http://scala-ide.org/blog/release-notes-4.2.0-vfinal.html 前提: 安装了JDK 、 Scala http://www.scala-lang.org原创 2015-10-25 19:06:05 · 732 阅读 · 0 评论 -
Spark与Hadoop关系
Spark是一个计算框架Hadoop是包含计算框架MapReducehe分布式文件系统HDFS。 Spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存储系统,可融入Hadoop生态。 Spark与Hadoop MapReduce优势如下1 中间结果输出 MapReduce的计算引擎将中间结果存储在磁盘上,进行存储和容错。 Spark原创 2015-10-20 15:07:28 · 2316 阅读 · 0 评论 -
Spark shell脚本
启动终端,cd 到 SPARK_HOME/ 路径下运行命令 $ ./bin/spark-shell原创 2015-10-20 20:12:08 · 1280 阅读 · 0 评论 -
SparkPi源码解读
SparkPi源码import scala.math.random import org.apache.spark._ /** Computes an approximation to pi */ object SparkPi { def main(args: Array[String]) { if (args.length == 0)原创 2015-10-22 20:03:05 · 1926 阅读 · 0 评论 -
ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0) java.lang.ClassNotFoundException: main.s
错误 当我们配置好spark 运行 其中的SparkPi的例子时可能会遇到下面错误: 15/12/30 21:07:54 ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0)java.lang.ClassNotFoundException: main.scala.SparkPi$$anonfun$1 at java原创 2015-12-30 21:42:50 · 38103 阅读 · 4 评论