
spark
SunWuKong_Hadoop
人和人之间的能力是在8小时之外拉开的。
Notoriously torture the data until it confessed
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪转载 2016-12-19 16:05:05 · 375 阅读 · 0 评论 -
一次 Spark SQL 性能提升10倍的经历
1. 遇到了啥问题是酱紫的,简单来说:并发执行 spark job 的时候,并发的提速很不明显。嗯,且听我慢慢道来,啰嗦点说,类似于我们内部有一个系统给分析师用,他们写一些 sql,在我们的 spark cluster 上跑。随着分析师越来越多,sql job 也越来越多,等待运行的时间也越来越长,我们就在想怎么把 sql 运行的时间加快一点。我们的整个架构是 spark 1.6.1 ...转载 2018-11-30 14:30:44 · 979 阅读 · 0 评论 -
Spark Web UI详解
spark Web UI是学习调试spark任务的入口,查看spark UI任务日志也是一项必备技能。但在几番搜索后,一直没能找到全面详细地对如何查看spark Web UI方法的文章,故在查看资料及个人理解的基础上整理了本篇文章,欢迎大家一起交流学习!下面对spark Web UI的各tab页分别进行介绍:1. Jobs在提交spark任务运行后,日志中会输出tracking URL即...转载 2018-12-27 15:40:26 · 2092 阅读 · 0 评论 -
跟我一起学【Hive】之——静态分区、动态分区
虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解.举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_device_open,而且还在不断随着时间增长,那么我需要给它进行分区,为什么要分区?因为我想缩小查询范围,提高速度和性能.分区其实是物理上对hdfs不同目录进行数据的load操作,0.7之后的版本都会自动创建不存在的hdfs的目录,不...原创 2018-12-28 17:19:31 · 615 阅读 · 0 评论 -
用beeline连接SparkSQL
1. 在$SPARK_HOME/conf/hive-site.xml文件中添加下面的属性vi $SPARK_HOME/conf/hive-site.xml<configuration> <property> <name>hive.metastore.uris</name> <value>thr...转载 2019-01-11 11:18:37 · 1346 阅读 · 2 评论 -
跟我一起学【Spark】之——数据分区
前言 控制数据分布以获得最少的网络传输可以极大地提升整体性能。 如果给定RDD只需要被扫描一次(例如大小表join中的小表),我们完全没有必要对其预先进行分区处理,只有当数据集多次在诸如连接这种基于键的操作中使用时(大表),分区才有帮助。 尽管Spark没有给出显示控制每个键具体落在哪一个工作节点上的方法,但是Spark可以确保同一组的键出现在...原创 2019-01-11 13:08:54 · 762 阅读 · 0 评论 -
跟我一起学Spark之——自定义分区实现
实现功能:将数据按照某个字段进行分开存储样例数据:20170721101954 http://sport.sina.cn/sport/race/nba.shtml20170721101954 http://sport.sina.cn/sport/watch.shtml20170721101954 http://car.sina.cn/car/fps.shtml20...转载 2019-01-23 18:13:06 · 332 阅读 · 0 评论 -
跟我一起学Spark之——用户在线时长和登录次数统计
package 用户在线时长和登录次数统计/** * Created by zhoubh on 2016/6/28. */import java.text.SimpleDateFormatimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import scala.uti...转载 2019-01-23 01:21:40 · 1640 阅读 · 0 评论 -
spark-beeline导出hive表数据到csv方法,乱码原因及解决方案
亲测语句1: spark-beeline -u jdbc:hive2://10.254.1.1:13002,10.254.1.1:13002,10.254.1.1:13002 --verbose=true --outputformat=csv -e "select * from lqioc_ioc_ods.wghhjrkxx limit 100000">wghhjrkxx.csv...原创 2019-02-14 17:41:16 · 3637 阅读 · 0 评论 -
跟我一起学Spark之——Spark进阶编程
6.1简介主要介绍两种类型的共享变量:累加器(accumulator)、广播变量(broadcast variable)累加器用来对信息进行聚合,广播变量用来高效分发较大的对象。我们使用Spark共享变量来对非严重错误的情况进行计数,以及分发一张巨大的查询表。当任务需要很长时间进行配置,譬如需要创建数据库连接或者随机数生成器时,在多个数据元素间共享一次配置就会比较有效率。敲黑板...原创 2019-02-14 18:14:09 · 333 阅读 · 0 评论 -
跟我一起学Spark之——数据读取与保存
原书中写到: 工程师会了解到更多的输出格式,有利于找到非常合适用于下游处理程序的格式。 数据科学家则可能更关心数据现有的组织形式。三类常见数据源:1.文件格式与文件系统;(文本文件、JSON、逗号分隔与制表符分隔值、SquenceFile、对象文件、Hadoop输入输出格式、文件压缩)(本地“常规”文件系统、Amazon S3、HDFS)2....原创 2019-02-14 15:45:40 · 279 阅读 · 2 评论 -
spark-beeline --help
The Beeline CLI 支持以下命令行参数,也可以在客户端通过帮助命令查询beeline --help:Option Description --autoCommit=[true/false] ---进入一个自动提交模式:beeline --autoCommit=true --autosave=[true/false] ---进入一个自动保存模式:beeline --...原创 2019-04-11 17:17:49 · 2386 阅读 · 0 评论 -
跟我一起学Spark之——在集群上运行Spark
7.2运行时架构7.2.5小结在集群上运行Spark应用的详细过程:1.用户通过spark-submit脚本提交应用。2.spark-submit脚本启动驱动器程序,调用用户定义的main()方法。3.驱动器程序与集群管理器通信,申请资源以启动执行器节点。4.集群管理器为驱动器程序启动执行器节点。5.驱动器进程执行用户应用中的操作。根据程序中所定义的对RDD的转化操作和...原创 2019-05-13 17:05:48 · 465 阅读 · 0 评论 -
跟我一起学【Spark】之——Spark调优与调试
第8章Spark调优与调试1.总结Spark的配置机制2.理解Spark应用性能表现的基础知识、设置相关配置项、编写高性能应用设计模式3.探讨Spark的用户界面、执行的组成部分、日志机制8.1使用SparkConf配置Spark1.SparkConf实例包含用户要重载的配置选项的键值对。Spark中的每个配置选项都是基于字符串形式的键值对。调用set()方法来添加配...原创 2019-05-23 17:31:30 · 437 阅读 · 0 评论 -
shell中spark-sql语句调试、执行方式
1.命令方式执行sparksql查询SQL="use mydatatable;;select count(1) from tab_videousr_onlne where p_regiion=101 and p_date='2017-04-05' and p_hour=21;"/home/mr/spark/bin/beeline -u jdbc:hive2://localhost:18...转载 2018-11-09 16:02:02 · 3249 阅读 · 0 评论 -
在Yarn上运行spark-shell和spark-sql命令行
spark-shell On Yarn如果你已经有一个正常运行的Hadoop Yarn环境,那么只需要下载相应版本的Spark,解压之后做为Spark客户端即可。需要配置Yarn的配置文件目录,export HADOOP_CONF_DIR=/etc/hadoop/conf 这个可以配置在spark-env.sh中。运行命令:cd $SPARK_HOME/bin./spark...转载 2018-11-09 11:19:14 · 1139 阅读 · 0 评论 -
Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占转载 2016-12-19 16:05:59 · 304 阅读 · 0 评论 -
Spark性能优化:开发调优篇
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据转载 2016-12-19 16:06:36 · 244 阅读 · 0 评论 -
Spark性能优化:数据倾斜调优
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据转载 2016-12-19 16:07:42 · 529 阅读 · 0 评论 -
Spark(一): 基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数转载 2016-12-30 10:31:10 · 1619 阅读 · 0 评论 -
Spark(二): 内存管理
Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块; Spark的内存可以大体归为两类:execution和storage,前者包括shuffles、joins、sorts和aggregations所需内存,后者包括cache和节点间数据传输所需内存;在Spark 1.5和之前版本里,两者是静态配置的,不支持借用,spark1.6 对内存管理模块进行了优化,通过内存转载 2016-12-30 10:31:42 · 634 阅读 · 0 评论 -
Spark(三): 安装与配置
参见 HDP2.4安装(五):集群及组件安装 ,安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群,基于hadoop yarn 的运行模式。目录:Spark集群安装参数配置测试验证Spark集群安装:在ambari -service 界面选择 “add Service",如图:在弹出界面转载 2016-12-30 10:32:12 · 702 阅读 · 0 评论 -
Spark(四): Spark-sql 读hbase
SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与hbase整合 目录:SparkSql 访问 hbase配置测试验证SparkSql 访问 hbase配置: 拷贝HBase的相关jar包到Spark节点上的$SPA转载 2016-12-30 10:32:35 · 996 阅读 · 0 评论 -
怎么学习Spark
Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位;要想成为Spark高手,需要经历一下阶段:第一阶段:熟练地掌握Scala语言Spark框架是采用Scala语言编写的,精致而优雅。要想成为Spark高手,你就必须阅读Spark的源代码,就必须掌握Scala...转载 2018-07-12 11:29:37 · 402 阅读 · 0 评论 -
spark2.2.0官方 中文文档 推荐+实验楼spark2.x学习文章转载
spark2.2.0官方 中文文档 推荐spark概述:http://spark.apachecn.org/docs/cn/2.2.0/快速入门:http://spark.apachecn.org/docs/cn/2.2.0/quick-start.htmlSpark Streaming 编程指南:http://spark.apachecn.org/docs/cn/2.2.0/stre...转载 2018-08-07 16:50:14 · 266 阅读 · 0 评论 -
IntelliJ IDEA Spark程序本地模式运行消除日志输出INFO信息
方法一:修改log4j.properties.template文件名为log4j.properties,并修改内容:log4j.rootCategory=INFO, console改成log4j.rootCategory=ERROR, console或log4j.rootCategory=WARN, console只显示ERROR级别的日志。方法二:将方法一拷贝出来的文...原创 2018-10-12 09:57:53 · 2035 阅读 · 1 评论 -
跟我一起学Spark之——Windows10下spark2.3.0本地开发环境搭建-亲测
相关组件版本:JDK1.8.0_171,hadoop-2.7.6,Spark-2.3.0,Scala-2.11.8,Maven-3.5.3,ideaIC-2018.1.4.exe,spark-2.3.0-bin-hadoop2.71.1 JDK1.8.0_171a. 下载JDK,jdk-8u171-windows-x64.exe,安装到目录:D:\setupedsoft\Jav...转载 2018-10-09 16:46:22 · 850 阅读 · 1 评论 -
跟我一起学Spark之——RDD Join中宽依赖与窄依赖的判断
1.规律 如果JoinAPI之前被调用的RDD API是宽依赖(存在shuffle), 而且两个join的RDD的分区数量一致,join结果的rdd分区数量也一样,这个时候join api是窄依赖 除此之外的,rdd 的join api是宽依赖2.Join的理解 3.举例A表数据: 1 a 2 b 3 cB表数据: 1 aa1 1 aa2 2...转载 2018-10-16 15:56:27 · 1203 阅读 · 0 评论 -
跟我一起学Spark之——《Spark快速大数据分析》pdf版下载
链接:https://pan.baidu.com/s/1vjQCJLyiXzIj6gnCCDyv3g 提取码:ib01国庆第四天,去逛了半天的王府井书店,五层出电梯右边最里面,倒数第三排《数据结构》,找到了一本很不错的书《Spark快速大数据分析》,试读了下,我很喜欢,也很适合我,遂买之。第1章 Spark数据分析导论 1 第2章 Spark下载与入门 7 第3章 RDD编程 21...原创 2018-10-10 11:42:51 · 2135 阅读 · 1 评论 -
跟我一起学【Spark】之——rdd.filter(_.contains("1")).count()详解
形如:rdd.filter(_.contains("1")).count()_.contains("1") //目的是获取包含“1”的行rdd.filter(_.contains("1")).count()// 计算rdd中包含“1” 的行的总数例如:rdd行编号 数据 1 1 2 21 rdd.filter(_.contains("1")).co...转载 2019-07-17 10:04:48 · 2325 阅读 · 0 评论