
spark
东语~
这个作者很懒,什么都没留下…
展开
-
Spark概述
文章目录1.什么是spark2.Spark特点3. Spark用途1.什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。 Spark是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 M...原创 2018-12-05 09:54:35 · 515 阅读 · 0 评论 -
Spark集群部署
文章目录1.集群角色2.安装部署1.集群角色 从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点,Master节点主要运行集群管理器的中心化部分,所承载的作用是分配Application到Worker节点,维护Worker节点,Driver,Application的状态。Worker节点负责具体的业务运行。从Spark程序运行的层面来看,Spark...原创 2018-12-05 10:59:10 · 359 阅读 · 0 评论 -
Spark-Shell运行任务
文章目录1.Spark-Shell 交互式编程1.1 启动命令1.2 Spark-Shell中运行wordcount2. spark-submit提交Job 开始本篇博客之前,请先准备好环境,参见【上一篇 Spark集群部署】1.Spark-Shell 交互式编程1.1 启动命令bin/spark-shell \--master spark://l0:7077 \--executo...原创 2018-12-05 14:14:26 · 2217 阅读 · 0 评论 -
IDEA中运行Spark
IDEA中运行Spark有两种方式本地模式和远程模式。1.本地模式 本地Spark程序调试需要使用local提交模式,即将本机当做运行环境,Master和Worker都为本机。Maven依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4....原创 2018-12-05 14:34:50 · 1335 阅读 · 0 评论 -
Hadoop3与Hadoop2及Spark比较
2017年12月发布的Hadoop 3标志着数据科学新时代的开始。Hadoop框架是整个Hadoop生态系统的核心,其他各种库都依赖它。 在本文中,我们将讨论Hadoop 3与Hadoop 2相比的主要变化。我们还将解释Hadoop和Apache Spark之间的差异,并建议如何...翻译 2019-02-18 09:04:37 · 7127 阅读 · 0 评论