
Spark
努力的凹凸曼
这个作者很懒,什么都没留下…
展开
-
Spark最简安装
该环境适合于学习使用的快速Spark环境,采用Apache预编译好的包进行安装。而在实际开发中需要使用针对于个人Hadoop版本进行编译安装,这将在后面进行介绍。 Spark预编译安装包下载——Apache版 下载地址:http://spark.apache.org/downloads.html (本例使用的是Spark-2.2.0版本) 接下来依次执行下载,上传,然后解压缩...原创 2018-09-11 11:18:13 · 302 阅读 · 0 评论 -
Spark-HBase集成错误之 java.lang.NoClassDefFoundError: org/htrace/Trace
在进行Spark与HBase 集成的过程中遇到以下问题: java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder': at org.apache.spark.sql.SparkSession$.org$apache$spa...原创 2019-04-28 16:44:14 · 1309 阅读 · 0 评论 -
Spark2.X集群运行模式
1.几种运行模式介绍 Spark几种运行模式: 1)Local 2)Standalone(Spark自己的集群管理) 3)Yarn 4)Mesos(Spark初期支持) 下载IDEA并安装,可以百度一下免费文档。 2.spark Standalone模式配置并测试 1)jdk1.8已经安装 2)scala2.11.8已经安装 3)Hadoop2.6.0已经安装 4)Sp...原创 2019-04-18 17:30:26 · 313 阅读 · 0 评论 -
Spark on Yarn运行错误:Yarn application has already ended! It might have been killed or unable to launch
Spark on Yarn模式运行错误: bin/spark-shell --master yarn --deploy-mode client #报错 查看8088页面上的工作日志 错误原因:在执行任务时检测到虚拟机的内存太小,2.2g的虚拟内存实际值,超过了2.1g的上限,不能满足该任务所需的内存要求,于是Yarn就干掉了执行此任务的contrainer。 解决办法: 在y...原创 2019-04-18 17:20:00 · 2025 阅读 · 0 评论 -
基于IDEA环境下的Spark2.X程序开发
1.Windows开发环境配置与安装 下载IDEA并安装,可以百度一下免费文档。 2.IDEA Maven工程创建与配置 1)配置maven 2)新建Project项目 3)选择maven骨架 4)创建项目名称 5)选择maven地址 6)生成maven项目 7)选择scala版本 选中项目按“F4”键 ...原创 2019-04-17 18:51:01 · 331 阅读 · 2 评论 -
Spark2.X环境准备、编译部署及运行
1.Spark概述 Spark 是一个用于大规模数据处理的快速和通用的计算引擎。 在速度方面, Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作, 否则我们每次操作就需要等待数分钟甚至数小时。 Spark 的一个主要特点是基于内存进行计算...原创 2019-04-17 10:40:09 · 612 阅读 · 0 评论 -
Hive与HBase集成进行数据分析
(一)Hive 概述 (二)Hive在Hadoop生态圈中的位置 (三)Hive 架构设计 (四)Hive 的优点及应用场景 (五)Hive 的下载和安装部署 1.Hive 下载 Apache版本的Hive。 Cloudera版本的Hive。 这里选择下载Apache稳定版本apache-hive-0.13.1-bin.tar.gz,并上传至bigdata-pr...原创 2019-04-13 16:15:39 · 4191 阅读 · 0 评论 -
Cloudera HUE大数据可视化分析
1.Hue 概述及版本下载 1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。 2)...原创 2019-04-15 17:25:51 · 1434 阅读 · 0 评论 -
Spark集群安装MySQL环境
1.修改yum源 鉴于用国外的Yum源,速度比较慢,所以想到将国外的yum源改为国内的Yum源,这里选择使用比较多的阿里云源。具体修改方法可以参考此连接 我们先新建一个新的文件用来存放Yum源: [kfk@bigdata-pro01 ~]$ cd /etc/yum.repos.d/ [kfk@bigdata-pro01 yum.repos.d]$ ll total 16 -rw-r--r-...原创 2019-03-21 17:55:36 · 411 阅读 · 0 评论 -
Spark on YARN
YARN概述 YARN是什么 Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YARN在Hadoop生态系统中的位置 YARN产生的背景 随着互联网高速发...原创 2018-10-10 11:12:47 · 269 阅读 · 0 评论 -
Spark运行模式
Spark运行模式简介 注:重点是Standalone模式,然后是YARNcluster和YARN client模式。 1. Standalone模式 即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。从一定程度上说,该模式是其他两种的基础。借鉴Spark开发模式,我们可以得到一种开发新型计算框架的一般思路:先设计出它的standalone模式,为了快速开发,起初...原创 2018-10-09 11:37:54 · 190 阅读 · 0 评论 -
Spark编程模型(下)
创建Pair RDD 什么是Pair RDD 包含键值对类型的RDD类型被称作Pair RDD; Pair RDD通常用来进行聚合计算; Pair RDD通常由普通RDD做ETL转化而来。 Python: pairs = lines.map(lambda x: (x.split(" ")[0], x)) Scala: val pairs = lines.map(x =>...原创 2018-09-19 16:06:15 · 169 阅读 · 0 评论 -
Spark 编程模型(上)
初识RDD 什么是RDD? 定义:Resilient distributed datasets (RDD), an efficient, general-purpose and fault-tolerant abstraction for sharing data in cluster applications. RDD 是只读的。 RDD 是分区记录的集合。 RDD 是容错的。— lin...原创 2018-09-13 16:58:46 · 323 阅读 · 0 评论 -
Spark编程模型(中)
创建RDD 方式一:从集合创建RDD makeRDD Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。 多文件格式支持: 多文件系统支持: 1)本地文件系...原创 2018-09-18 14:56:53 · 193 阅读 · 0 评论 -
Spark 概述
Spark 是什么? ● 官方文档解释:Apache Spark is a fast and general engine for large-scale data processing. 通俗的理解:Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件之上,形成集群...原创 2018-09-10 15:59:14 · 346 阅读 · 0 评论 -
Spark编程环境搭建及WordCount实例
基于Intellij IDEA搭建Spark开发环境搭建 基于Intellij IDEA搭建Spark开发环境搭——参考文档 ● 参考文档http://spark.apache.org/docs/latest/programming-guide.html ● 操作步骤 ·a)创建maven 项目 ·b)引入依赖(Spark 依赖、打包插件等等) 基于Intellij IDE...原创 2018-09-12 17:51:31 · 1737 阅读 · 0 评论 -
Spark-Streaming实时数据分析
1.Spark Streaming功能介绍 1)定义 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams 2.NC服务安装并运行Spark ...原创 2019-04-30 15:26:27 · 2605 阅读 · 1 评论