- 博客(5)
- 收藏
- 关注
转载 在Spark上通过自定义RDD访问HBase
这里介绍一个在Spark上使用自定义RDD获取HBase数据的方案。这个方案的基础是我们的HBase表的行键设计。行键设计大概是这样子的:标签ID+时间戳+随机码。平时的需求主要是导出指定标签在某个时间范围内的全部记录。根据需求和行键设计确定下实现的大方向:使用行键中的时间戳进行partition并界定startRow和stopRow来缩小查询范围,使用HBase API创建RDD获取数据,在获...
2019-05-21 17:34:57
245
转载 Java内存溢出(OOM)异常完全指南
我的职业生涯中见过数以千计的内存溢出异常均与下文中的8种情况相关。本文分析什么情况会导致这些异常出现,提供示例代码的同时为您提供解决指南。Nikita Salnikov-TarnovskiPlumbr Co-Founder and VP of Engineering本文内容来源于Plumbr,对原文内容有删减和补充这也许是目前最为完整的Java OOM异常的解决指南。1、java.lan...
2019-05-21 14:30:20
590
转载 spark-submit配置说明
《Spark 官方文档》Spark配置spark-1.6.0 原文地址Spark配置Spark有以下三种方式修改配置:Spark properties (Spark属性)可以控制绝大多数应用程序参数,而且既可以通过 SparkConf 对象来设置,也可以通过Java系统属性来设置。Environment variables (环境变量)可以指定一些各个机器相关的设置,如IP地址,其设置方...
2019-05-20 20:05:12
4171
转载 Spark Properties
Spark properties能够控制大部分的程序设置,并且可以为每个程序分开配置。properties能够通过SparkConf直接设置然后传入到SparkContext。SparkConf允许用户配置一些公用属性(例如:master URL和程序名称),也允许使用set()方法,传入key-value键值对来设置。例如,我们初始化一个拥有两个线程的应用程序如下:注意:我们设置local[2...
2019-05-20 19:47:04
1297
转载 Spark 参数设置
这里写自定义目录标题总结Spark系统的性能调优是一个很复杂的过程,需要对Spark以及Hadoop有足够的知识储备。从业务应用平台(Spark)、存储 (HDFS)、操作系统、硬件等多个层面都会对性能产生很大的影响。借助于多种性能监控工具,我们可以很好地了解系统的性能表现,并根据上面介绍的经验进 行调整。#spark.driver.extraJavaOptions -XX:PermSize=...
2019-05-20 19:34:35
4941
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅