
Spark
文章平均质量分 95
liyong1115
这个作者很懒,什么都没留下…
展开
-
Spark 中 map 与 flatMap 的区别
通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一:将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本:步骤二:在Spark中创建一个RDD来读取hdfs文件/tmp/test1.txt转载 2015-04-11 13:45:53 · 578 阅读 · 0 评论 -
spark-submit
一旦用户的应用打包后,就可以使用bin/spark-submit脚本来启动,此脚本就会为Spark和它的依赖安排配置环境变量,还支持不同的集群管理和部署模式:12345678./bin/spark-submit \--class class>--mas转载 2017-04-21 17:01:10 · 620 阅读 · 0 评论 -
Spark+Cassandra优化
问题1:reduce task数目不合适解决方案:需要根据实际情况调整默认配置,调整方式是修改参数spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism问题2:s转载 2015-06-04 16:36:18 · 1676 阅读 · 0 评论 -
spark总体概况
1. spark vs hadoopPS:Databricks团队特别说明,为了和Hadoop对比,这次用于排序的Spark集群没有使用它们的内存缓存机制,他们也是用硬盘存储的中间结果! http://tieba.yunxunmi.com/mtieba-hadoop-kz-58b9e430a78747f7fb1ea9f9e6374597.html 但是我们要明白,spark转载 2015-06-04 17:28:18 · 520 阅读 · 0 评论 -
使用Spark+Cassandra打造高性能数据分析平台
Cassandra是一个分布式、高可扩展的数据库,用户可以创建线上应用程序,实时处理大量数据。 Apache Spark是应用于Hadoop集群的处理引擎,在内存条件下可以为Hadoop加速100倍,在磁盘上运行时也能实现十倍的加速。Spark还提供SQL、流数据处理、机器学习和图型计算等功能。 Cassandra与Spark的结合,让端到端的分析工作流的实现更为容易。另外,交易型数据库转载 2015-06-04 16:40:53 · 9872 阅读 · 1 评论 -
spark on yarn作业运行的jar包缓存优化
这几天一直在追查spark on yarn的作业运行中的jar包分发,以及执行后的jar包删除的问题。从一开始的毫无头绪,到后来逐渐清晰,到后来通过hadoop的两个很简单的参数配置解决了问题。不得不说,虽然问题不大,对某些大牛们来说也真是小case,但是追查问题,定位问题到最终解决问题的过程,对我来说真是很不错的体验和学习过程。下面详细描述一下遇到的问题,以及解决的过程,给后面的同学一点参考。转载 2015-06-23 16:49:52 · 1366 阅读 · 0 评论 -
如何编写YARN应用程序
概念和流程一般的概念就是“Application Submission Client”提交一个”Application”到YARN的Resource Manager。客户端(client)与ResourceManager之间通过”ClientRMProtocol”协议进行通信。如果有需要,客户端通过 ClientRMProtocol#getNewApplication 调用来获得一个新的“转载 2015-06-19 09:36:56 · 1315 阅读 · 0 评论 -
YARN应用开发流程
1 概况YARN是Hadoop系统上的资源统一管理平台,其主要作用是实现集群资源的统一管理和调度。YARN是一个高速发展中的资源管理与调度平台,目前还不是很完善,当前只支持CPU和内存的分配。作为资源调度器,YARN支持如下几个资源调度语义:获取指定节点的特定资源量,如node1上4个虚拟CPU核,1GB内存(YARN上的资源使用容器包装);获取指定机架上的特定转载 2015-06-16 13:45:20 · 867 阅读 · 0 评论 -
zookeeper原理(转)
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookee转载 2015-06-16 13:09:23 · 453 阅读 · 0 评论 -
Spark分布式计算和RDD模型研究
1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景:Ø 迭代式算法:迭代式机器转载 2015-05-12 13:17:11 · 749 阅读 · 0 评论 -
Spark编程指南笔记
park编程指南笔记 2015.02.03本文是参考Spark官方编程指南(Spark 版本为1.2)整理出来的学习笔记,主要是用于加深对 Spark 的理解,并记录一些知识点。1. Spark介绍产生原因1、MapReduce具有很多局限性- 仅支持Map和Reduce两种操作- 迭代效率低- 不适合交互式处理- 不擅长流式处理2转载 2015-04-21 14:39:55 · 641 阅读 · 0 评论 -
RDD的认识
浅谈对于RDD的认识RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录转载 2015-04-11 14:57:27 · 521 阅读 · 0 评论 -
Spark知识点
数据处理模型通常来讲,针对数据处理有几种常见模型,包括:Iterative Algorithms,Relational Queries,MapReduce,Stream Processing。例如Hadoop MapReduce采用了MapReduces模型,Storm则采用了Stream Processing模型。RDD混合了这四种模型,使得Spark可以应用于各种大数据处理场景。转载 2015-04-11 14:10:21 · 611 阅读 · 0 评论 -
究竟什么是RDD
RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html 本文也是基于这篇论文和源码,分析RDD的实现。第一个问题,RDD是什么? R转载 2015-04-11 14:00:48 · 1022 阅读 · 0 评论 -
Spark任务提交jar包依赖解决方案
通常我们将spark任务编写后打包成jar包,使用spark-submit进行提交,因为spark是分布式任务,如果运行机器上没有对应的依赖jar文件就会报ClassNotFound的错误。 下面有三个解决方法:方法一:spark-submit –jars根据spark官网,在提交任务的时候指定–jars,用逗号分开。这样做的缺点是每次都要指定jar包,如果jar包少的话可以这转载 2017-05-08 14:05:20 · 1716 阅读 · 0 评论