
saprk
bug搬运攻城狮
当你的才华还撑不起你的野心时,你就应该静下心来学习
展开
-
SparkGraphX 快速入门
1.图图是由顶点和边组成的,并非代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络互联网web页面常用的应用有:在地图应用中找到最短路径基于与他人的相似度图,推荐产品、服务、人际关系或媒体1.2 GraphX的框架设计GraphX时,点分割和GAS都已成熟,在设计和编码中针对它们进行了优化,并在功能和性能之间寻找最佳的平衡点。如同Spark本身,每个子...原创 2018-04-28 16:11:20 · 1163 阅读 · 0 评论 -
spark程序运行剖析
写在前面的话目的:不要别人说个啥你都是一脸懵逼状态,圈子内交流最好用专业术语,不然就会感觉鸡同鸭讲,我最近就碰到这个问题,首先要做的就是我们自己一定要明确这些术语!Application spark应用程序,说白了,就是用户基于spark api开发的程序,一定是通过一个有main方法的类执行的,比如java开发spark,就是在eclipse中,建立的一个工程Application...原创 2018-11-16 14:11:12 · 220 阅读 · 0 评论 -
Spark数据倾斜调优
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。...转载 2018-11-14 11:32:59 · 325 阅读 · 0 评论 -
spark与MogoDB不得不说的故事
一.背景spark2.xScala 2.11.x截取pom.xml<dependencies><dependency><groupId>org.mongodb.spark</groupId><artifactId>mongo-spark-connector_2.11</artifactId><v...原创 2018-10-25 11:54:39 · 1797 阅读 · 2 评论 -
Spark 以及 spark streaming 核心原理及实践(二)
spark 生态及运行原理Spark 特点 运行速度快 => Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。 适用场景广泛 => 大数据分析统计,实时数据处理,图计算及机器学习 易用性 =>...转载 2018-07-05 10:54:39 · 1219 阅读 · 0 评论 -
spark工作流程及原理(一)
Spark架构的组成图如下:Cluster Manager:在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。Driver: 运行Application 的main()函数 Executor:执行器,是为某个Applicat...原创 2018-06-27 14:35:53 · 12526 阅读 · 0 评论 -
Shuffle过程介绍
MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分发;Re...转载 2018-06-21 14:46:31 · 4991 阅读 · 0 评论 -
spark submit 参数解释说明及调优
Usage: spark-submit [options] <app jar | python file> [app arguments]Usage: spark-submit --kill [submission ID] --master [spark://...]Usage: spark-submit --status [submission ID] --master [spark...翻译 2018-05-30 10:34:58 · 2048 阅读 · 0 评论 -
Spark2与Oozie整合
背景:纯粹个人瞎摸索,相关资料太少了,估计大多数公司还没使用spark2吧?操作一.创建oozie共享目录在hdfs上创建spark2目录:hadoop fs -mkdir /user/oozie/share/lib/lib_20180523180130/spark2 将spark2中的jar包放入刚创建的spark2目录下hadoop fs -put / /opt/cloudera/parce...原创 2018-05-28 11:05:48 · 2305 阅读 · 3 评论 -
Kafka+SparkStreaming+MongoDB
快放假了,不想说废话主要操作类package com.actionimport com.conf.{ConfigManager, ConstantsInterface}import com.until.LocalKafkaUntilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spa...原创 2018-12-29 14:45:58 · 1592 阅读 · 1 评论