spark
文章平均质量分 86
hjbbjh0521
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Learning Spark 学习笔记 第二章 Downloading Spark and Getting Started
spark方面的书太少,而且中文版的几乎没有,且仅有的中文版都翻译的一塌糊涂,所以我这个英文很烂的人只能一边开着有道一边硬着头皮啃英文版的书,先入手一本《Learning Spark》,只是为了记录自己学习过程,有用的东西记下来方便以后查询。第二章为下载spark和快速起步,download之后tar解压。spark提供两种交互式的shell:spark shell和PySpark s原创 2015-06-19 10:30:41 · 947 阅读 · 0 评论 -
Spark 2.3.0 Spark SQL, Datasets, and DataFrames 学习笔记
一 概述spark sql是结构化数据处理模块,可以通过SQL语句和Dataset API进行结构化数据处理。1.1 SQLspark sql一个用途就是sql查询,也可以读取已经存在的hive仓库的数据。程序中运行sql语句,将会返回Dataset/DataFrame数据结构。你也可以通过使用spark-sql命令行或jdbc/odbc服务进行sql操作。1.2 Datasets和DataFra...原创 2018-05-24 15:48:58 · 1283 阅读 · 0 评论 -
Spark 2.3.0 RDD Programming Guide 学习笔记
一 概述每个spark应用都会有一个driver程序,运行用户main函数,在集群上执行此应用的并行操作。spark主要的抽象出来的概念是RDD,它是一个数据的集合,以分区方式分布式存储在各个集群节点上,因此可以在分区上进行并行操作。RDD可以通过hadoop支持的文件系统上的文件创建,或者driver程序中存在的scala集合。用户可以对RDD进行持久化操作,缓存到内存中,提高RDD多次参与计算...原创 2018-05-23 17:47:30 · 501 阅读 · 0 评论 -
spark官方文档之——Spark Streaming Programming Guid spark streaming编程指南
概述spark streaming是core spark api的扩展,能够进行可伸缩的、高通量、容错的实时流处理。数据可来源于kafka,flume,twitter,zeromq,kinesis或tcp sockets,基于这些数据的复杂算法可用高层次函数,像map,reduce,join和window进行处理。最后,处理过的数据可被存储到文件系统,数据库和实时仪表盘上。实际上,你可以在数据翻译 2015-07-07 15:42:51 · 877 阅读 · 0 评论 -
spark官方文档之——Running Spark on YARN YARN上运行SPARK
支持YARN上运行spark是在版本0.6.0上添加的,后续版本中完善。准备在YARN上运行spark需要一个分布式的二进制spark文件,这个文件被编译能够支持YARN(download时会让选择版本,有支持hadoop yarn的版本)。二进制文件可以从spark工程网站上下载。自己编译spark,参考Building Spark(http://spark.apache.o翻译 2015-06-29 09:26:49 · 6398 阅读 · 0 评论 -
spark官方文档之——Spark programming guide spark编程指南
(相关代码为scala版本,其他java和python版自行查阅)概述每个spark应用由一个driver program组成,driver program运行用户main函数并在集群上执行多种并行操作。spark主要的抽象概念是弹性分布式数据集(RDD),它是分区在集群节点上的数据集合,可在其上做并行操作。RDDs可以从一个hadoop文件系统(或者其他任何hadoop支持的文件系统)上翻译 2015-06-25 09:53:51 · 1152 阅读 · 0 评论 -
关于hadoop无法启动的问题
在hadoop上搭spark,首先搭了scala环境,然后spark下载配置。弄好之后,想启动例子试一把。首先启动hadoop···接着就没有然后了·hadoop一直启不来,shell打印的也没有不正常的:[vdc@compute-02-04-71 hadoop-2.6.0]$ sbin/start-dfs.sh 15/06/27 10:00:08 WARN util.Nati原创 2015-06-27 10:02:27 · 1230 阅读 · 1 评论 -
spark官方文档之——Quick Star 快速开始
本教程提供怎么快速使用spark的介绍。我们首先通过交互式shell(用python或者scala)介绍API,然后展示怎样用java,scala和python写应用。更详尽的参考官方文档programming guide。首先需要下载spark,因为我们不会使用HDFS,所以你可以下载任何版本的hadoop。spark shell交互式分析基础spark的shell提翻译 2015-06-24 16:44:43 · 1116 阅读 · 0 评论 -
Learning Spark 学习笔记 第五章 加载或保存数据
大致分为三种数据源:1.文件和文件系统本地或者分布式文件系统的文件,可以为text,json,sequenceFile和协议缓存格式的文件数据。2.结构化数据(Spark SQL)第九章会详细讲述3.数据库和键值存储文件格式:支持的常见文件格式为:文本文件:文本文件在spark中加载和保存很简单,加载一个文本文件为一个RDD时,每一行为RDD中一个i原创 2015-06-23 15:40:01 · 1670 阅读 · 0 评论 -
Learning Spark 学习笔记 第四章 使用键/值对
spark的RDDs很多操作都是基于键值对的。Creating Pair RDDs:例如scala :val pairs = lines.map(x => (x.split(" ")(0), x)) //创建一个以第一个单词为key的RDDpython和scala以内存中的集合创建:SparkContext.parallelize() 而java:SparkContext.原创 2015-06-23 09:34:00 · 1216 阅读 · 0 评论 -
Learning Spark 学习笔记 第三章 RDDs编程
概述:RDD(resilient distributed dataset,弹性分布式数据集),是一个抽象概念,是可分布式存储和处理的数据的集合。spark中可进行RDD的创建;转化已存在的RDD为一个新的RDD;在RDD上进行分布式处理,并行计算得到结果(value)。RDD基础:RDD可分成多个分区,每个分区分布在集群节点上。RDDs可包含python,java,scala对原创 2015-06-19 14:13:58 · 1079 阅读 · 0 评论 -
Spark 2.3.0 Spark Streaming Programming Guide 学习笔记
一 概述spark是近实时的流处理框架,支持的数据源有kafka、flume、kinesis、tcp sockets、文件系统等。流式读取数据后,可以用类似map、reduce、join和window等高层函数进行处理。最终,处理后的数据可以写入文件系统、数据库、实时仪表盘等。这里其实已经把流式数据抽象成了一个个小批次的分布式数据集,因此,你也可以在这些数据之上进行机器学习以及图计算。内部实现如下...原创 2018-05-31 18:18:58 · 659 阅读 · 0 评论
分享