
Spark
文章平均质量分 67
簡箪
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pyspark练习--进行日志提取IP并打印排行前五的访问次数的IP
拿到测试用日志文件并分析27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET/static/image/common/faq.gif HTTP/1.1" 200 1127110.52.250.126 - - [30/May/2013:17:38:20 +0800] "GET /data/cache/style_1_widthauto.css?y7...原创 2018-09-24 22:56:38 · 1177 阅读 · 0 评论 -
IDEA 搭建Spark2.4.3源码开发
准备环境个人事先准备的环境有jdk1.8Scala2.11.12maven3.6.1下载在官方的git可以下载到spark的源码官方git由于官方git更新的并不是稳定最新版本的,因此我们需要去releases找到我们需要的版本:https://github.com/apache/spark/releases/tag/v2.4.3下载到本地,解压缩然后更改pom文件中的配置po...原创 2019-08-29 16:08:15 · 567 阅读 · 0 评论 -
Spark SQL 2
DataFrame详解DataFrame与RDD之间的差异DataFrame的特性在使用Python进行数据分析时,一般都是使用pandas这个类库来对数据进行包装的,而其中的数据都是以DataFrame这种对象的形式统一呈现出来。同样的SparkSQL中也提供了DataFrame这种类来对数据进行封装并为我们的编程提供了统一的API。DataFrame是一个类似于2维表的数据类型,其有着...原创 2019-05-30 15:23:03 · 257 阅读 · 0 评论 -
Spark on yarn 警告消除
1.导读从spark官网中我们可看到spark running-on-yarn 上的话只需要将master指定为yarn即可,但是在on yarn的时候,有可能会报出如下两处警告警告一:18/12/25 00:34:51 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... usin...转载 2019-03-12 16:24:02 · 309 阅读 · 0 评论 -
SparkSQL 1
SparkSQL什么是SparkSQL首先看官网的描述官网地址:http://spark.apache.org/sql/我们先简单了解下官网是怎么描述SparkSQL这个东西的:Spark SQL is Apache Spark’s module for working with structured data. 根据官网的描述就是Spark SQL是Spark的一个模块用来处理结构化数...原创 2019-03-11 14:21:57 · 188 阅读 · 0 评论 -
Spark 核心 3
Spark入门理解Spark的基本术语及结构这里,我也是先贴出Spark的官网地址来:https://spark.apache.org/docs/latest/cluster-overview.html术语这里是官网上对术语的解释的一张截图,我们来对一些基础的数据进行研读:Application:从官网上我们可以这么理解,这是一段通用的程序构建在spark上的,将会由driver和exe...原创 2019-03-04 15:01:40 · 136 阅读 · 0 评论 -
Spark 核心 5
Spark序列化&Spark配置读取序列化简单案例我们之前读取的文件都是文本文件,所以我们是使用textFile这个算子来读取文件所有的路径的,但是如果我们要读取的是一个序列化后的文件,我们就不能使用这个算子来读取了。我们就该用sequenceFile这个算子。val file = sc.sequenceFile[BytesWritable,String]("") val ...原创 2019-03-06 17:48:04 · 133 阅读 · 1 评论 -
Spark 核心4
RDD的操作RDD的Persistence官网的具体网址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistence我们已经知道RDD的transformation是一个lazy操作,只有当遇到一个action时才会触发真正的代码执行。但是我们平时所写的代码中我们主要都是一些transform...原创 2019-03-05 17:12:16 · 155 阅读 · 0 评论 -
Spark 编译
首先什么是Spark上面是官网的截图,第一句话就说了:spark是一个应用于大数据的分析引擎因此,spark是一个用于数据处理的执行引擎速度上面图中很明确的体现了Spark的速度官方给出的速度是Hadoop的100倍,当然,这个数据并不是绝对的,但是在绝大部分情况下的确是Spark要比Hadoop快,而原理上来讲其实主要是Hadoop的计算是由MapReduce担当的,而MapRedu...原创 2019-02-20 16:53:12 · 378 阅读 · 0 评论 -
Spark核心 2 RDD编程
之前我们把RDD讲解了一下,这篇文章就进行简单的使用这里例用官方文档进行解读:http://spark.apache.org/docs/latest/rdd-programming-guide.html在IDEA中创建Spark应用程序在IDEA中添加了spark以后,我们就可以在spark classes 中添加依赖了:import org.apache.spark.SparkConte...原创 2019-02-25 17:43:38 · 313 阅读 · 0 评论 -
Spark 核心 01 RDD
Spark的基础知识Spark中最核心的是什么,是RDD那什么是RDD,虽然spark官网也给出了一些解释,但是还是源码是根本,所以我们还是从源码来看所以,这里我贴出官方GitHub上的RDD源码来一探究竟:https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.sca...原创 2019-02-22 16:33:54 · 179 阅读 · 0 评论 -
Spark使用get_json_object的问题
一、问题现象:使用spark sql调用get_json_object函数后,报如下错误:yarn 容器被kill,导致任务失败,查看日志:Container killed by YARN for exceeding memory limits使用spark命令:/opt/software/spark-2.2.0-bin-hadoop2.6/bin/spark-sql \--master ...转载 2019-09-18 12:30:08 · 7003 阅读 · 0 评论