
Spark
文章平均质量分 92
AISeekOnline
* 不要在该努力拼搏的年纪选择安逸 *
展开
-
Spark入门(Python版)
Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年,两个来自Google的观点使Hadoop成为可能:一个分布式存储框架(Google文件系统),在Hadoop中被实现为HDFS;一转载 2016-12-18 12:53:21 · 679 阅读 · 0 评论 -
Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占转载 2017-11-02 16:20:44 · 262 阅读 · 0 评论 -
Spark性能优化:数据倾斜调优
前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此转载 2017-11-02 16:17:55 · 339 阅读 · 0 评论 -
Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪转载 2017-11-02 16:14:51 · 267 阅读 · 0 评论 -
Spark性能优化:开发调优篇
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据转载 2017-11-02 16:11:41 · 372 阅读 · 0 评论 -
Spark性能调优——扩展篇
本文要解决的问题:从更深层次考虑,对Spark进行性能调优。目的继基础篇分析了开发调优与资源调优之后,本文作为拓展篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优简述有时候,大家可能会遇到大数据开发过程中一个比较棘手的问题,那就是数据倾斜,此时Spark作业的性能会比预期差很多,数据倾斜调优,就是使用转载 2017-11-02 19:27:54 · 1169 阅读 · 0 评论 -
Spark性能调优——基础篇
本文要解决的问题:Spark在使用过程中不可避免的需要进行一系列的性能优化,本文就Spark性能调优的基础部分进行总结和归纳(开发调优和资源调优),参考了不少前辈的文章,在此非常感谢。目的在大数据的领域,Spark已经成为了不可或缺的一部分,被越来越多的人使用。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型转载 2017-11-02 19:22:14 · 956 阅读 · 0 评论 -
Spark报错——AnnotatedConnectException拒绝连接
1、问题描述在运行spark任务时候报错如下:17/11/03 10:27:54 ERROR ShuffleBlockFetcherIterator: Failed to get block(s) from 192.168.1.16:37205java.io.IOException: Failed to connect to /192.168.1.16:37205 at org.apach原创 2017-11-03 18:51:08 · 19976 阅读 · 1 评论 -
HBase之BlockCache数据读取
HBase上Regionserver的内存分为两个部分,一部分作为Memstore,主要用来写;另外一部分作为BlockCache,主要用于读数据;上面一篇文章已经介绍过Memstore,这里主要介绍读取数据的部分,即BlockCache。 BlockCache主要提供给读使用。读请求先到memstore中查数据,查不到就到blockcache中查,再查不到就会到磁盘上读,并把读的结果放入bl转载 2017-11-03 18:52:28 · 988 阅读 · 0 评论 -
spark提交任务时breeze包冲突问题
spark提交任务:出现如下问题:分析&解决:造成这个原因有两个:一是在提交任务时候breeze包没有添加,启动时候添加--jars breeze_2.11-0.13.1.jar即可二是由于spark本身的breeze包版本不一样,缺失所需的函数,而spark启动时候默认优先读取spark内部breeze包。解决方法是在启动时候添加配置--driver-class-path breeze_2.11原创 2018-01-18 10:53:25 · 5081 阅读 · 0 评论 -
spark Caused by: java.lang.OutOfMemoryError: Java heap space 问题
问题描述:在使用spark过程中,有时会因为数据增大,而出现下面两种错误:java.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError:GC overhead limit exceeded问题分析:原因一:executor内存不够 原因二:driver内存不够解决方法方法一在spa原创 2018-01-19 10:01:52 · 12939 阅读 · 2 评论 -
Spark Caused by: java.io.NotSerializableException 序列化异常踩过的坑
最近有需求需要在driver端创建好类实例,然后在rdd里面调用,但是使用过程中发现 Caused by: java.io.NotSerializableException,即序列化异常,通过查处网上资料发现是构建的类没有继承Serializable,没有继承Serializable的类是不会自动执行自动序列化操作的,因此我把构建的类继承了Serializable这个类,再次运行的时候发现依旧是序...原创 2019-01-22 21:03:48 · 18876 阅读 · 3 评论 -
spark简介
Apache Spark项目于2009年诞生于伯克利大学的AMPLab实验室,当初的目的在于将内存内分析机制引入大规模数据集当中。在那个时候,Hadoop MapReduce的关注重点仍然放在那些本质上无法迭代的大规模数据管道身上。想在2009年以MapReduce为基础构建起分析模型实在是件费心费力而又进展缓慢的工作,因此AMPLab设计出Spark来帮助开发人员对大规模数据集执行交互分析、从而原创 2017-08-22 21:23:30 · 305 阅读 · 0 评论 -
spark读取mongodb(maven)
org.mongodb.spark mongo-spark-connector_2.11 2.0.0 org.apache.spark spark-sql_2.11 2.0.0import com.mongodb.spark._import com.mongodb.spark.config.ReadConfigimport org.原创 2017-08-15 10:02:05 · 3248 阅读 · 0 评论 -
SparkSQL与Hive的整合
SparkSQL与Hive的整合1. 拷贝$HIVE_HOME/conf/hive-site.xml和hive-log4j.properties到 $SPARK_HOME/conf/2. 在$SPARK_HOME/conf/目录中,修改spark-env.sh,添加export HIVE_HOME=/usr/local/apache-hive-0.13.1-binexport原创 2017-04-25 14:49:19 · 958 阅读 · 0 评论 -
Spark 实战,第 1 部分: 使用 Scala 语言开发 Spark 应用程序
引言在当前这个信息时代里,大数据所蕴含的价值已经被绝大多数的企业所认知。在 IT 的世界里,往往都是需求驱动技术的发展和革新。Hadoop 在这个大背景下应运而生,它给我们提供了一个存储和处理大数据的良好的解决方案,短短的几年时间里,它已无处不在,事实上它已经成了大数据技术的代名词。然而在人们越来越多的使用 Hadoop 提供的 MapReduce 框架处理大数据的时候,却发现它存在许多天转载 2016-12-25 21:18:00 · 1020 阅读 · 0 评论 -
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
本文旨在通过具有实际意义的案例向读者介绍如何使用 Kafka 分布式消息框架和 Spark 的 Streaming 模块构建一个实时的数据处理系统。内容将涉及数据产生,数据读取,数据处理,结果存储等数据系统处理的基本环节,也会提出一些开放式的问题,供读者一起讨论。转载 2016-12-25 21:20:09 · 571 阅读 · 0 评论 -
Spark 实战,第 3 部分: 使用 Spark SQL 对结构化数据进行统计分析
本文将通过两个例子向读者展示如何使用 Spark SQL/DataFrame API 编写应用程序来对结构化的大数据进行统计分析,并且还会通过分析程序运行日志以及利用 Spark Web Console 向读者介绍 Spark 应用程序运行的基本过程和原理。通过本文的阅读,读者将会对 Spark SQL 模块有较为深入的认识和理解。转载 2016-12-25 21:21:58 · 1577 阅读 · 0 评论 -
Spark 实战,第 4 部分: 使用 Spark MLlib 做 K-means 聚类分析
MLlib 是 Spark 生态系统里用来解决大数据机器学习问题的模块。本文将以聚类分析这个典型的机器学习问题为基础,向读者介绍如何使用 MLlib 提供的 K-means 算法对数据做聚类分析,我们还将通过分析源码,进一步加深读者对 MLlib K-means 算法的实现原理和使用方法的理解。转载 2016-12-25 21:23:16 · 1956 阅读 · 0 评论 -
Spark 实战,第 5 部分: 使用 ML Pipeline 构建机器学习工作流
本文将通过一个分类预测的机器学习问题向读者展示如何使用 Spark 新的 ML Pipeline 库构建机器学习的工作流。通过本文的阅读,读者将会了解到 ML Pipeline 与 MLlib 相比在设计上的独到和使用上的不同之处,并且会深入理解 ML Pipeline 的基本概念和工作方式,为进一步学习和深入研究打下良好的基础。转载 2016-12-25 21:24:25 · 1234 阅读 · 0 评论 -
Spark 实战,第 6 部分: 基于 Spark ML 的文本分类
本文将通过一个手机短信分类预测的案例向读者介绍文本分析的基本步骤和方法,实现上将使用 Spark ML 的多层感知器分类器及 Word2Vec 文本向量化工具,通过本文的阅读,读者会学习到使用 Spark ML 进行文本分析处理的基本方法和相关工具,为进一步深入研究和学习打下基础。转载 2016-12-25 21:25:28 · 5348 阅读 · 0 评论 -
Spark RDD概念学习系列之Spark的算子的分类(十一)
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会转载 2017-01-08 22:01:15 · 601 阅读 · 0 评论 -
CentOS7 基于Hadoop2.7 的Spark2.0集群搭建
目录(?)[+]序言上传文件到各服务器安装配置Scala安装配置Spark配置集群启动集群测试Spark集群序言Hadoop 2.7 集群已搭建完毕. 参考“CentOS7 从零开始搭建 Hadoop2.7集群‘’。(node 192.168.169.131, node1 192.168.169.133, node2 192.转载 2017-01-10 00:12:43 · 508 阅读 · 0 评论 -
Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介时间 2015-09-09 07:05:00 博客园-原创精华区原文 http://www.cnblogs.com/shishanyuan/p/4747761.html主题 Spark MLlib【注】该系列文章以及使用到安装包/测试数据 可以在《 倾情大奉送--转载 2017-03-23 20:51:59 · 750 阅读 · 0 评论 -
GraphX挖掘极大团
设计思路:聚合节点的所有邻居求边上节点的共同邻居,并通过共同邻居生成极大团的ID,发送至源节点和目标节点获取收到极大团ID的节点代码如下:package mu.atlas.graph.communityimport mu.atlas.graph.utils.BaseTool._import org.apache.spark.graphx.{EdgeContext, Graph,...原创 2019-08-28 23:00:13 · 344 阅读 · 0 评论