
Spark
文章平均质量分 88
Trigl
永远别给自己后悔的机会。
展开
-
Learning Spark——Spark连接Mysql、mapPartitions高效连接HBase
执行Spark任务免不了从多个数据源拿数据,除了从HDFS获取数据以外,我们还经常从Mysql和HBase中拿数据,今天讲一下如何使用Spark查询Mysql和HBase1. Spark查询Mysql内容主要参考官方文档:http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databasesSpar原创 2017-05-20 16:12:46 · 5366 阅读 · 1 评论 -
使用Flume+Kafka+SparkStreaming进行实时日志分析
每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码1. 整体架构思考一下,正常情况下我们会如何收集并分析日志呢?首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,就需要先将磁盘中的文件上原创 2017-05-24 15:33:29 · 50419 阅读 · 10 评论 -
Learning Spark——使用spark-shell运行Word Count
在hadoop、zookeeper、hbase、spark集群环境搭建 中已经把环境搭建好了,工欲善其事必先利其器,现在器已经有了,接下来就要开搞了,先从spark-shell开始揭开Spark的神器面纱。spark-shell是Spark的命令行界面,我们可以在上面直接敲一些命令,就像windows的cmd一样,进入Spark安装目录,执行以下命令打开spark-shell:bin/spark-s原创 2017-04-27 11:20:29 · 8680 阅读 · 1 评论 -
Learning Spark——RDD常用操作
本文内容主要包括: 基本转换操作 键值对转换操作 行动操作 RDD支持两种操作:转换(Transformation)操作和行动(Action)操作。为什么会分为两种操作,这两种操作又有什么区别呢?我们先考虑一下平常我们使用的一些函数,举个例子Long.toString(),这个转换是把Long类型的转换为String类型的。如果同样的事情在Spark中,是如何执行的呢?在Sp原创 2017-04-27 17:33:57 · 2939 阅读 · 0 评论 -
Learning Spark——使用Intellij Idea开发基于Maven的Spark程序
本文主要讲解如何使用Idea开发Spark程序,使用Maven作为依赖管理,当然也可以使用SBT,但是由于一直写Java程序习惯用Maven了,所以这里使用Maven。1、下载安装Jdk、Scala、MaveJdk、Maven安装方法略过,搞Java的应该都会,这里讲一下Scala的安装,其实和Java差不多。首先下载:https://www.scala-lang.org/download/按步骤安原创 2017-04-20 18:08:37 · 10018 阅读 · 1 评论 -
Learning Spark——client mode和cluster mode的区别
在使用spark-submit提交Spark任务一般有以下参数:./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ ... # other options <application-jar原创 2017-06-09 19:10:51 · 13604 阅读 · 3 评论 -
Spark Streaming 初见
本文内容是对 Spark Streaming 官方文档的总结,用一个简单的例子来入门 Spark Streaming。Spark Streaming 是用来处理实时流数据的,所以必然有一个输入和一个输出:Spark Streaming 的内部实现其实还是 Spark core,将接收到的实时流数据分成一个一个很小的批数据进行处理:Spark Streaming 基本的数...原创 2018-08-22 18:39:08 · 752 阅读 · 0 评论 -
Spark Streaming Checkpoint
一个 Streaming 应用是一个 007 特工,需要保证 7 * 24 小时的持久运转,因此容错性就极其重要,Spark Streaming 通过在一个具有容错性的存储系统如 HDFS 中设置一些检查信息来从错误中恢复。什么情况下需要设置 checkpoint?首先我们看一下哪些数据会被 checkpoint,主要有两种类型的数据:元数据:将定义 Streaming 应用...原创 2018-08-22 18:39:55 · 1121 阅读 · 0 评论 -
Spark Streaming 集成 AWS Kinesis
关于 AWS Kinesis 的基本信息可以看我的这篇文章:使用 AWS Kinesis 收集流数据,本文主要讲解 Spark Streaming 如何集成 Kinesis 处理流数据。配置 Spark Streaming 应用Spark Streaming 集成 Kinesis 的主要代码如下:import org.apache.spark.storage.Storage...原创 2018-08-22 18:41:15 · 2407 阅读 · 0 评论