
spark
一起喝芬达2010
Java/Python/分布式架构/大数据/数仓/Linux/数据分析
展开
-
import spark.implicits._ 报红,无法导入
先给出错误的代码def main(args: Array[String]): Unit = { //Create SparkConf() And Set AppName SparkSession.builder() .appName("Spark Sql basic example") .config("...原创 2020-02-02 15:52:15 · 847 阅读 · 0 评论 -
Spark SQL/DataFrame/DataSet操作(一)-----读数据
一、读取数据源(1)读取json ,使用spark.read。注意:路径默认是从HDFS,如果要读取本机文件,需要加前缀file://,如下scala> val people = spark.read.format("json").load("file:///opt/software/data/people.json")people: org.apache.spark.sql.Data...原创 2020-02-02 15:34:45 · 549 阅读 · 0 评论 -
Spark的RDD操作之Join大全
一、RDD的Join操作有哪些?(一)Join:Join类似于SQL的inner join操作,返回结果是前面和后面集合中配对成功的,过滤掉关联不上的。源代码如下:/**Return an RDD containing all pairs of elements with matching keys in this and other. Eachpair of elements w...原创 2020-01-17 14:06:53 · 1620 阅读 · 0 评论 -
Spark failed to delete temp directory
一,错误日志17/05/02 11:56:57 INFO ShutdownHookManager: Deleting directory C:\Users\arpitbh\AppData\Local\Temp\spark-03f14dbe-1802-40ca-906c-af8de0f462f917/05/02 11:56:57 ERROR ShutdownHookManager: Except...原创 2020-01-17 14:05:52 · 2382 阅读 · 0 评论 -
Apache Spark实战教程(三):两个RDD求交集 差集 并集
一.前言spark中两个rdd,经常需要做交集,差集,并集等操作。好比任何一门编程语言中两个集合,交并差也是常见的需求。现在我们看看在spark中怎么实现两个rdd的这种操作。为了方便看到结果,在spark shell中测试如下代码。生成两个RDDscala> val rdd1 = sc.parallelize(List("a", "b","c"))rdd1: org.apache...原创 2020-01-17 14:05:01 · 1743 阅读 · 0 评论 -
Apache Spark实战教程(二):Spark 中需要两个RDD进行嵌套操作
一,前言因为在Spark中进行RDD的嵌套操作,所以在操作的时候报了一个错误Caused by: org.apache.spark.SparkException: This RDD lacks a SparkContext. It could happen in the following cases:RDD transformations and actions are NOT invo...原创 2020-01-17 14:03:35 · 1793 阅读 · 1 评论 -
Apache Spark渐进式学习教程(六): SparkSQL简介及入门
目录一、简介1、SparkSQL的由来2、SparkSql特点二、SparkSQL入门1、创建DataFrame对象2、由外部文件构造DataFrame对象一、简介Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame(数据框)的编程抽象,DF的底层仍然是RDD,并且可以充当分布式SQL查询引擎。1、Sp...原创 2019-08-01 15:56:34 · 308 阅读 · 0 评论 -
Apache Spark渐进式学习教程(十一):Spark Streaming快速入门和api介绍
目录一,快速入门Demo二,API介绍DStream 的转换操作窗口转换操作输出操作持久化一,快速入门Demo新建maven工程并添加scala支持。引入如下pom文件: <dependency> <groupId>org.apache.spark</groupId> ...原创 2019-08-05 17:16:07 · 385 阅读 · 0 评论 -
Apache Spark渐进式学习教程(五): 数据的读取与保存
目录一,前言1.1,文件格式与文件系统1.2,Spark SQL中的结构化数据源1.3,数据库与键值存储二,文件格式2.1,文本文件2.2,JSON2.3,逗号分隔值与制表符分隔值三,文件系统3.1 本地/“常规”文件系统3.2 Amazon S33.3 HDFS四,数据库JdbcRDD操作 MySQL等关系型数据库一,前言Sp...原创 2019-08-01 15:07:08 · 317 阅读 · 0 评论 -
Apache Spark渐进式学习教程(四): RDD编程
一,RDD 的基本概念RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。通俗点来讲,可以将 RDD 理解为一个分布式对象集合,本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区,每个分区就是一个数据集片段。一个 RDD 的不同分区可以保存到集群中的不同结点上,从而可以在集群中的不同结...原创 2019-08-01 11:33:36 · 329 阅读 · 0 评论 -
Apache Spark渐进式学习教程(十):Spark Streaming简介和系统架构
目录一,Spark Streaming简介二,Spark Streaming 系统架构三,动态负载均衡四,容错性五,实时性、扩展性与吞吐量一,Spark Streaming简介Spark Streaming 是 Spark 核心 API 的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming 支持从多种数据源获取数据,包括 ...原创 2019-08-05 14:51:08 · 350 阅读 · 0 评论 -
Apache Spark渐进式学习教程(一) :学习路线和教程
目录一,官网二,书籍三,视频教程一,官网地址:http://spark.apache.org/二,书籍《spark 快速大数据分析.pdf》 链接:https://pan.baidu.com/s/1Z4b0O-ChpOLky4ybZHGtyQ密码: 3wpc三,视频教程《Spark从零开始》https://www.imooc.com/learn/814《...原创 2019-07-23 14:08:10 · 386 阅读 · 0 评论 -
Apache Spark渐进式学习教程(二):核心模块 Spark Core, Spark SQL, Spark Streaming, MLib 介绍
目录前言:spark 软件栈图一,Spark Core二,Spark SQL三,Spark Streaming四,MLib前言:spark 软件栈图一,Spark CoreSpark Core 实现了 Spark 的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core 中还包含了对弹性分布式数据集(resilient distr...原创 2019-07-23 14:07:01 · 970 阅读 · 0 评论 -
Apache Spark渐进式学习教程(八):Spark集群部署(standalone)和运行
目录一,前言1.1 集群规划1.2 前置条件1.3 安装包下载二,安装部署2.1,解压和修改配置文件2.2 复制文件到另外2台机器三,运行和测试3.1启动集群3.2启动spark-shell连接集群3.2提交spark任务到集群一,前言1.1 集群规划需要已经配置免密登录的三台CentOS7服务器:IP地址 hosts 节点身...原创 2019-08-02 17:19:41 · 492 阅读 · 0 评论 -
Apache Spark渐进式学习教程(三): Spark单节点安装和快速入门Demo
一,下载Spark使用 Spark 的第一步是下载和解压缩。我们先从下载预编译版本的 Spark 开始。访问http://spark.apache.org/downloads.html,进行spark安装包的下载。本文使用版本为:spark-2.4.3-bin-hadoop2.7.tgz二,安装Sparkcd ~tar -xf spark-2.4.3-bin-hadoop2.7...原创 2019-07-29 17:42:11 · 254 阅读 · 0 评论