spark
文章平均质量分 58
妄念驱动
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark-RDD笔记及集群作业实例
第一部分:RDD笔记定义:Resilient Distributed Dataset(弹性分布式数据集)RDD是Spark应用程序中的数据表示形式RDD是一种分布式的内存抽象RDD具有数据流模型的特点:自动容错、位置感知调度和可伸缩性RDD是只读的记录分区的集合,使得实现容错的开销很低RDD是高度受限的共享集合特性:分区(partition):RDD的基本组成单位 对于一个RDD,分原创 2017-09-26 22:18:14 · 377 阅读 · 0 评论 -
Spark安装及环境配置
往期博文讲过Hadoop集群的搭建,这次分享下Spark的安装和配置,Spark是基于Hadoop的大规模数据处理引擎。Spark的特点是基于内存的大数据综合处理框架,速度百倍于MapReduce适用于处理较多迭代次数的任务基于RDD(弹性分布式数据集)实现容错和并行提出了DAG(Directed Acyclic Graph有向无环图)支持多种语言的API(如Java、Scala、Pyth原创 2017-09-24 21:41:09 · 2847 阅读 · 0 评论 -
Spark SQL基础笔记及简单案例
Spark SQL是一个用来处理结构化数据的Spark组件,是Spark上一个分布式的SQL查询引擎,并拥有自己的SQL解析器。Spark SQL 特点:快速具有统一的数据访问方式:兼容Hive,从各种结构化数据源中读取数据基于内存的列式存储技术面向多种语言具有良好的组件兼容性Spark SQL的执行流程:步骤1.SQL解析(语法结构层面的解析)步骤2.绑定(语义层面的解析)步骤3原创 2017-10-01 21:48:26 · 693 阅读 · 0 评论 -
Spark SQL用户自定义函数UDF及Apache日志实例
临时UDF创建临时UDF,在SQL中使用: (注:涉及文档上一篇博文《Spark SQL基础笔记及简单案例》给出》//创建DataFramecase class Student(id: String, name : String, age: Int)val rdd=sc.textFile("hdfs://node01:9000/sqldata/students.txt").map(_.spli原创 2017-10-02 12:22:49 · 1444 阅读 · 0 评论 -
Spark Streaming学习笔记
Spark Streaming是构建在Spark基础上的一个实时数据流处理框架。能够对流式数据进行可扩展的、高吞吐的、高容错的实时处理。批生成间隔(batch interval) 数据采集确是实时的、逐条进行的,而处理数据的单位是一批,因此需要确定一个时间间隔。系统对这个间隔内获得的数据统一操作,称为批生成时间间隔,决定了作业提交的频率,是系统调优的重要参数。Dstream(Discretiz原创 2017-10-02 16:28:44 · 268 阅读 · 0 评论 -
Spark Streaming实时处理本地数据流
每隔20s监听本地文件夹“/home/hduser/Streamingtext”下新生成的文本文件,对新文件中的各单词个数进行统计/*Streamingtext下操作文件应注意以下几点:1.监控目录下的文件应该具有统一的数据格式,避免在内部解析时报错。2.文件必须是在监控目录下创建,可以通过原子性的移动或重命名操作,放入目录。3.一旦移入目录,文件就不能再修改了,如果文件是持续写入的话,新的原创 2017-10-02 21:52:53 · 2343 阅读 · 0 评论 -
Spark Streaming实时处理TCP Sockets数据流
1.构建模拟器,模拟网络环境下的数据流; 2.编辑Spark Streaming应用程序,在node01提交以集群模式运行,获取node02上端口9999中的文本数据流,并每隔5s对数据流中各单词的个数进行统计。演示文档//*******************模拟器******************package sparkimport java.io.{PrintWriter}impor原创 2017-10-02 23:06:44 · 815 阅读 · 0 评论 -
Spark Streaming基于状态、窗口的实时数据流
与前两篇Spark Streaming的实时处理案例,原理基本一致,这里不再演示。最大的不同是,这两种方式必须设置checkpoint。 (注:模拟器前面已给出)基于状态的实时数据分析使用updateStateByKey(func)步骤:步骤1. 定义状态state 步骤2. 定义状态更新函数func 步骤3. 对DStream进行checkpoint 步骤4. 以func为参数,在DStr原创 2017-10-03 21:04:36 · 1443 阅读 · 0 评论 -
Spark Streaming累加器与广播的简单应用
package spark/** *监控网络中的数据,基于broadcast中的黑名单,对获取数据流中的单词进行过滤筛选,并统计过滤筛选出记录的个数 */import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.broadcas原创 2017-10-03 22:42:42 · 2225 阅读 · 0 评论
分享