
Spark
cindysz110
望尘莫及,日积月累。
展开
-
[Spark] CentOS6.7安装独立版Spark
1. 系统环境:Linux:CentOS6.7JDK: jdk-1.8.0_131Scala: Scala-2.12.2Spark: Spark-2.1.12. 安装JDK安装JDK8并设置环境变量[root@localhost local]# java -versionjava version "1.8.0_131"Java(TM) SE Runtime Environment (build...原创 2017-07-03 22:40:28 · 581 阅读 · 0 评论 -
[Hadoop] Spark SQL - DataFrame & DataSet
1. 基本概念分布式计算框架的产生DataFrame这个词不是Spark SQL独创的,是其他框架已有的(比如说Python的pandas,R语言也有),Spark SQL从其他框架借鉴来的。 Python适用于单机的计算,单机的能处理的数据量很有限。亟待分布式计算框架。 RDD 和MapReduce的学习和开发成本太高,普通程序员开发难度大。DataFrame vs DataSet...原创 2018-09-03 23:11:16 · 352 阅读 · 0 评论 -
[Hadoop] Spark2.3.1编译报错“[error] javac: invalid source release: 1.8”解决
编译环境:CentOS7.3 + Maven-3.3.9 + JDK1.8.0_181 + Scala-2.11.12Hadoop版本:hadoop-2.6.0-cdh5.13.1Spark源码版本:spark-2.3.1 Spark编译报错:[error] javac: invalid source release: 1.8[hadoop@hadoop000 spark-...原创 2018-09-06 11:44:45 · 1449 阅读 · 0 评论 -
[Hadoop] IDEA隐藏INFO日志信息
Windows下面使用Intellij IDEA编程,打印的[INFO]信息很多。不想看太多INFO,可以提高日志级别为WARN或者ERROR。1. 在src/main下面新建resources文件夹,并在resources文件夹上面点右键 - Make Directory As - Resource Root2. 拷贝spark的conf目录下的log4j.properties文件到上面...原创 2018-09-07 13:43:15 · 1406 阅读 · 0 评论 -
[Hadoop] 大数据项目实操 (未完成)
1. 背景公司已有业务系统繁多,日志量大,需要集中管理,预警和监控。传统的日志方案不满足需求:ELK:适合中小型企业,数据量大hold不住。 目前很多监控服务(如zabbix)还达不到秒级的通知,有时间延迟外部压力:SLA:服务宕机时间 99.99%,即允许服务宕机时间为0.01% 2. 需求在线日志收集->分析->可视化&预警,使用大数据...原创 2018-09-29 15:17:24 · 2592 阅读 · 0 评论 -
[CDH] CDH5集成Spark2.2后spark-shell启动报错解决
CDH5已集成Spark2.2,spark-shell启动报错:[root@hadoop01 bin]# ./spark2-shell Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream at org.apache.spark.deploy.Sp...原创 2018-11-13 18:25:52 · 2203 阅读 · 0 评论 -
[CDH] 记一次CDH5集成SPARK2时parcel激活报错“WARN:Parcel not distributed but have active state ACTIVATIN”的问题解决
背景:CM-5.13.1 + CDH-5.13.1 集成SPARK2.3.4(CDS-2.3.4)时parcels包激活hung住,集群中有一个节点一直是在激活中,不能完成激活,进退两难。去社区找了资料,最后是调用了Clouder官方的deactivate接口把激活状态回滚到激活之前:POST接口。之后再次重新点击激活,状态还是卡在这一步不能前进,于是去CM主机上面查看cl...原创 2019-04-04 10:18:54 · 4931 阅读 · 1 评论 -
[CDH] CDH5.13.1集成 Apache Spark2.3.4(CDS 2.3.4)
背景:已有CDH5.13.1,集成CDS 2.3.4(Apache Spark 2.3.4)。1. 环境:操作系统:CentOS7.3 CM:CM-5.13.1 CDH:CDH5.13.1 JDK:1.8.0_151 Scala:Scala 2.11.122. 集成步骤:2.1 环境准备按照官方文档要求安装好所有的软件:CDH版本CDH 5.9 + CM...原创 2019-04-02 16:42:43 · 896 阅读 · 0 评论 -
[Hadoop] 使用Spark SQL来访问Hive里面的数据
1. 环境准备1.1 安装Hive1.2 安装Spark1.3 拷贝hive的conf下的hive-site.xml到spark的conf目录下[hadoop@hadoop000 ~]$ cd app/spark[hadoop@hadoop000 spark]$ cp ~/app/hive-1.1.0-cdh5.7.0/conf/hive-site.xml conf/1.4...原创 2018-08-29 22:42:05 · 3363 阅读 · 0 评论 -
[Hadoop] Spark SQL
Spark SQLSpark SQL is Apache Spark's module for working with structured data.由于Hive太慢而产生的一系列SQL on Hadoop框架:Hive:优点上手快,缺点运行速度太慢 Impala Presto:国内有京东在使用 Shark:把hive跑在spark之上 Drill HAWQ Phoen...原创 2018-08-29 21:55:24 · 326 阅读 · 0 评论 -
[Spark] Spark-2.2.0 源码编译
环境:操作系统:CentOS7.3Maven:maven-3.5.4JDK:jdk-1.8.0_45Scala:2.11.12备注:本文编译和安装spark全过程使用hadoop用户,除标注了切换root用户的地方以外,其他均是hadoop用户操作。1. 下载Spark源码进入spark官网,选择最新版本的spark,包类型选择source code,右键复制链接地址后去服务器上下载。# 下载sp...原创 2018-07-09 09:55:19 · 1268 阅读 · 1 评论 -
[Spark] 使用IDEA构建Spark应用程序实例
环境:本地:win7 + jdk1.8 + IntelliJ IDEA 2018.1.2 + maven-3.3.9 + scala插件,机器要求可以联网(需要下载各种依赖包)远程:CentOS7.3 + jdk1.8 + scala-2.11.12 + hadoop-2.6.0-cdh5.7.0 + hive-1.1.0-cdh5.7.0-bin + spark-2.2.0-bin-2....原创 2018-07-16 18:35:54 · 698 阅读 · 0 评论 -
[Spark] 使用IDEA构建Spark应用程序
1. IDEA新建一个maven+scala的project点击Finish之后静待项目初始化完成2. 修改pom.xml配置文件2.1 修改<properties>标签 <properties> <scala.version>2.11.8</scala.version> # Scala默认版本为2.7.0,修改为2.11.8 ...原创 2018-07-12 14:35:17 · 492 阅读 · 0 评论 -
[Spark] spark-shell 命令使用
环境:操作系统:CentOS7.3Java: jdk1.8.0_45Hadoop:hadoop-2.6.0-cdh5.14.0.tar.gz 1. spark-shell 使用帮助[hadoop@hadoop01 ~]$ cd app/spark-2.2.0-bin-2.6.0-cdh5.7.0/bin[hadoop@hadoop01 bin]$ ./spark-shell --helpUsa...原创 2018-07-12 15:34:34 · 20758 阅读 · 0 评论 -
[Spark] RDD的创建
创建RDD的方式:1 - 测试:通过并行化一个已经存在的集合,转化成RDD;2 - 生产:引用一些外部的数据集(共享的文件系统,包括HDFS、HBase等支持Hadoop InputFormat的都可以)。第一种方式创建RDD[hadoop@hadoop01 ~]$ spark-shell --master local[2]Using Spark's default log4j profile:...原创 2018-07-12 17:39:52 · 4672 阅读 · 0 评论 -
[Hadoop] Kafka + Spark Streaming 数据零丢失
Kafka:输入Spark Streaming:伪实时流处理 batch批次 1s :> = 0 0,1...100...DB:输出 Redis/ES雪崩效应 Job全部hung在那里 解决一般是手工kill ==> 如何保证数据0丢失流处理程序 bug => 挂了 => 下次再启动,也要保证数据0丢失生产上如何确认spark和kafka的版本...原创 2018-08-27 16:06:35 · 831 阅读 · 0 评论 -
[Spark] RDD的基本操作
1. RDD的基本操作RDD支持两种类型的操作:1) transformations,转换。从一个RDD转换成另外一个RDD(RDD是不可变的)。 例如:map函数,对RDD里每一个元素做同一件事,将一个RDD转换成另外一个RDD RDDA(1,2,3,4,5) map( +1 ) RDDB(2,3,4,5,6)2) actions,操作。它会在数据集上计算后返...原创 2018-07-12 21:50:04 · 2493 阅读 · 0 评论 -
[Spark] RDD中JOIN的使用
JOIN在Spark Core中的使用1. inner joininner join,只返回左右都匹配上的// 启动spark-shell,定义两个rdd,做join操作[hadoop@hadoop01 ~]$ spark-shell --master local[2]scala> val a = sc.parallelize(Array(("A","a1"),("B","b1"),("...原创 2018-07-13 11:27:58 · 22838 阅读 · 0 评论 -
[Spark] 使用IDEA构建Spark应用程序
环境:本地:win7 + jdk1.8 + IntelliJ IDEA 2018.1.2 + maven-3.3.9 + scala插件,机器要求可以联网(需要下载各种依赖包)远程:CentOS7.3 + jdk1.8 + scala-2.11.12 + hadoop-2.6.0-cdh5.7.0 + hive-1.1.0-cdh5.7.0-bin + spark-2.2.0-bin-2....原创 2018-07-13 16:21:00 · 3052 阅读 · 0 评论 -
[CDH5] CDH5集成SPARK2 parcel时激活失败回滚方法
背景:CM-5.13.1 + CDH-5.13.1 集成SPARK2.3.4(CDS-2.3.4)时parcels包激活hung住,进退两难。Cloudera并没有在CM控制台开发Cancel或者回滚的入口,此时服务状态就是hung住页面无法操作。通过查询接口文档,Cloudera提供了一个deactivate的POST接口可以来回滚active操作:curl -u...原创 2019-04-03 20:03:55 · 3050 阅读 · 1 评论