
spark streaming
jy02268879
这个作者很懒,什么都没留下…
展开
-
【四】Spark Streaming:从自带词频统计例子入门
开源社区使用的自带词频统计例子的地址NetworkWordCount.scalaspark-submit执行打开9999端口nc -lk 9999控制台进入bin目录cd /app/spark/spark-2.2.0-bin-2.9.0/bin./spark-submit --master local[2] --class org.apache.spark.exam...原创 2018-07-16 23:12:31 · 1437 阅读 · 0 评论 -
【十五】Spark Streaming整合Kafka使用Direct方式(使用Scala语言)
官网介绍Kafka提供了新的consumer api 在0.8版本和0.10版本之间。0.8的集成是兼容0.9和0.10的。但是0.10的集成不兼容以前的版本。这里使用的集成是spark-streaming-kafka-0-8。官方文档配置SparkStreaming接收从kafka来的数据有两种方式。老的方式要使用Receiver,新的方式是Spark1.3后引进的不用Recei...原创 2018-07-19 03:25:50 · 3944 阅读 · 0 评论 -
【十六】Log4j+Flume+Kafka+Spark Streaming(使用Scala语言)
项目目录pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apach...原创 2018-07-19 06:02:01 · 557 阅读 · 0 评论 -
【十九】Spark安装(standalone模式)
【一】基于Ubuntu16.04环境编译Spark源码及安装先确定已经编译好了源码,并且安装好了local模式。(每台机器都要安装)node1 Master node2 worker node3 worker node4 worker cd /app/spark/spark-2.2.0-bin-2.9.0/confcp spark-env.sh....原创 2018-07-24 18:56:20 · 1047 阅读 · 0 评论 -
【十七Spark Streaming实战】日志分析之用python生成日志
用python模拟访问日志的生成。将生成的日志写入一个文件中,后续Flume会从该日志文件采集数据。1.在服务器中创建日志文件cd /app/flume/testDatatouch generateLog.log2.代码cd /app/flume/testDatavi sparkStreamingGenerateLog.py#coding=UTF-8import ...原创 2018-07-20 17:38:52 · 1853 阅读 · 0 评论 -
【十八Spark Streaming实战】日志分析之Flume+Kafka+Spark Streaming+Hbase
【十七Spark Streaming实战】日志分析之用python生成日志对接Python日志产生器输出的日志到Flume1.编写flume agent的配置文件在node1上进入flume目录cd /app/flume/flume/conf创建flume的agent配置文件vi test-streaming-project.conf#streaming-projec...原创 2018-07-23 02:56:17 · 1985 阅读 · 0 评论 -
【二】使用IDEA+Maven构建Spark(使用Scala语言)开发环境
这里用的scala的模板,因为后面spark编程会继续使用这个项目选择本地maven的settings.xml文件。点击完成。文件目录如下删除掉不用的文件后在src/main中添加一个java目录。点击project structure.点击Modules,选择java文件目录,点击Sources,保存在java目录下创建包最后文件目录如...原创 2018-07-16 03:21:08 · 665 阅读 · 0 评论 -
【三】Spark Streaming理论
概述官网文档Spark生态圈Spark生态圈和Hadoop生态圈对比Spark和Hadoop的对比Spark和MapReduce的对比 集成Spark生态系统的其他框架综合使用Spark Core与Spark Streaming集成把静态数据集转成数据流 Spark Core与MLlib集成数据流中每个event可以...原创 2018-07-16 21:27:10 · 692 阅读 · 0 评论 -
【二十】Spark on YARN
Spark部署(standalone模式)--master官网介绍在Spark中支持4种运行模式:1.Local:通常在开发时使用,可以直接在IDEA中运行,本机电脑不用部署环境。--master("local[2]")。2.Standalone:这是Spark自带的,如果一个集群是Standalone,需要在多台机器上同时部署Spark环境。改一个机器的配置要把所有机器都同步...原创 2018-07-30 03:08:55 · 257 阅读 · 0 评论 -
Spring Boot整合Echarts绘制静态数据柱状图、饼图
Echarts官网idea创建spring boot项目下载echarts把echarts.min.js文件放到项目中。项目目录 pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmln...原创 2018-07-23 03:45:40 · 13859 阅读 · 5 评论 -
【零】SparkSQL特性与优化
SparkSQL特性之:代码量少,可读性高。计算平均数的功能,左是hadoop写MapReduce的代码量,太繁琐。右是用Spark Core RDD API写,代码量少但可读性不好。同样是计算平均数,用Spark SQL或者DataFrame,代码可读性比RDD好很多。SparkSQL特性之:统一访问操作接口。在SparkSQL中read/write不同格式的数据都是有统...原创 2018-07-27 22:43:25 · 1282 阅读 · 0 评论 -
【十四】Spark Streaming整合Kafka使用Receiver方式(使用Scala语言)
官方网站Kafka提供了新的consumer api 在0.8版本和0.10版本之间。0.8的集成是兼容0.9和0.10的。但是0.10的集成不兼容以前的版本。这里使用的集成是spark-streaming-kafka-0-8。官方文档配置SparkStreaming接收从kafka来的数据有两种方式。老的方式要使用Receiver,新的方式是Spark1.3后引进的不用Recei...原创 2018-07-19 01:21:19 · 1592 阅读 · 0 评论 -
Spring Boot+Echarts+HBase绘制动态数据饼图(Spring Boot打包提交到服务器上运行)
echarts官网Spring Boot整合Echarts绘制静态数据柱状图、饼图项目目录需要echarts.min.js和jquery.jspom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=...原创 2018-07-23 04:57:08 · 3820 阅读 · 1 评论 -
【五】Spark Streaming接入Socket的数据Local模式(使用Scala语言)
Spark Streaming接入Socket的数据模拟一个wordcount的功能,结果打印到控制台,使用Local模式,使用Scala语言。项目目录pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...原创 2018-07-17 01:27:17 · 751 阅读 · 0 评论 -
【六】Spark Streaming接入HDFS的数据Local模式(使用Scala语言)
Spark Streaming接入HDFS的数据模拟一个wordcount的功能,结果打印到控制台,使用Local模式,使用Scala语言。项目目录pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xs...原创 2018-07-17 01:40:03 · 940 阅读 · 0 评论 -
【七】Spark Streaming带状态的算子UpdateStateByKey的操作Local模式(使用Scala语言)
带状态的算子UpdateStateByKey:这个操作允许保持一些状态的信息,并且有新数据进来的时候持续更新状态。使用这个操作必须:1.定义一个有数据类型的状态。2.定义状态更新的方法。3.配置checkpoint目录用于存放状态,生产上最好配在HDFS上。例子需求:统计到目前为止累计出现的单词的个数(需要保持住以前的状态)。项目结构 pom.xml...原创 2018-07-17 02:24:34 · 1055 阅读 · 0 评论 -
【一】基于Ubuntu16.04环境编译Spark源码及安装
前期准备maven3.3.9+安装jdk1.7+jdk安装scala安装下载http://spark.apache.org/downloads.html这里是下载源码,根据我们生成的环境自己编译官网编译源码介绍创建目录mkdir /app/sparkcd /app/spark解压tar -zxvf spark-2.2.0.tgz 使用...原创 2018-07-16 21:42:52 · 1262 阅读 · 2 评论 -
【八】Spark Streaming 用foreachRDD把结果写入Mysql中Local模式(使用Scala语言)
DStream 的foreachRDD是允许把数据发送到外部文件系统中。然而使用不当会导致各种问题。错误示范1:在driver创建连接,在woker使用。会报错connection object not serializable。错误示范2:rdd每个记录都创建连接,成本非常高。正确示范:拿到rdd以后foreachPartition,每个partition创建连接,而且使用数...原创 2018-07-18 01:40:36 · 2112 阅读 · 0 评论 -
【九】Spark Streaming中window operations的简介
官网介绍window窗口计算:定时进行一个时间段内的数据处理原创 2018-07-30 21:47:16 · 525 阅读 · 0 评论 -
【十】Spark Streaming中transform、leftjoin的使用Local模式(使用Scala语言)
transform方法把DStream转换成新的RDD需求:黑名单过滤。访问日志 ==>DStream20180718,sid20180718,lee20180718,leo ==>(sid:20180718,sid)(lee:20180718,lee)(leo:20180718,leo) leftjoin黑名单表 ==>RDDl...原创 2018-07-18 03:02:27 · 796 阅读 · 0 评论 -
【十一】Spark Streaming整合Spark SQL的操作Local模式(使用Scala语言)
DataFrames and SQL操作可以作用在流数据上。首先创建一个SparkSession使用SparkContext。这个SparkContext也能被StreamingContext使用。项目目录pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www...原创 2018-07-18 03:31:19 · 1555 阅读 · 0 评论 -
【十二】Spark Streaming整合Flume使用Push方式(使用Scala语言)
官网介绍Spark Streaming整合Flume有两种方式Approach 1: Flume-style Push-based ApproachApproach 2: Pull-based Approach using a Custom Sink这里介绍第一种Spark Streaming在Flume扮演一个avro agent。由于是push模式,需要先启动Spark...原创 2018-07-18 04:46:11 · 412 阅读 · 0 评论 -
【十三】Spark Streaming整合Flume使用Pull方式(使用Scala语言)
官网地址Spark Streaming整合Flume有两种方式Approach 1: Flume-style Push-based ApproachApproach 2: Pull-based Approach using a Custom Sink这里介绍第二种,生成上优先使用这种方式,因为可靠性比第一种高。这种方式会运行一个自定义的Flume的sink遵循以下步骤1.F...原创 2018-07-18 22:01:49 · 514 阅读 · 1 评论 -
【二十一】Spark常用算子
转自Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2...转载 2018-08-15 21:08:56 · 657 阅读 · 0 评论