
Spark
碣石观海
幸甚至哉,歌以咏志
展开
-
Spark 循环迭代式作业与作业间结果传递测试
package com.fw.sparktestimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object TestDAGsBC { def main(args: Array[String]): Unit = { val sparkConf: SparkCo...原创 2020-04-19 09:54:43 · 842 阅读 · 0 评论 -
Spark作业计算结点并发运行验证
一、双核 CPU 的情况验证方式: | 在作业主程序中的 rdd.foreachPartition()中加入如下代码: | 使当前线程睡眠1000ms,前后都打印当前线程信息 | 数据自行准备,大量即可rdd.foreachPartition(partition => { println("[partition] Current thread " ...原创 2019-07-06 16:47:42 · 291 阅读 · 0 评论 -
《Spark用户评论监控实时报警系统》
------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛 第10章 监控报警系统实战原书源码地址:https://github.com/xlturing/spark-streaming-action/tree/master/code/第10章本文源码地址:https://...原创 2019-07-16 22:07:15 · 2883 阅读 · 1 评论 -
《Spark用户行为统计系统》
------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛 第9章 用户行为统计系统原书源码地址:https://github.com/xlturing/spark-streaming-action/tree/master/code/第9章本文源码地址:https://gi...原创 2019-07-05 23:57:24 · 875 阅读 · 0 评论 -
《Spark实时词频统计处理系统》
------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛 第8章 实时词频统计处理系统实战原书源码地址:https://github.com/xlturing/spark-streaming-action/tree/master/code/第8章本文源码地址:https:...原创 2019-06-28 23:52:06 · 1885 阅读 · 0 评论 -
Spark Streaming日志分析
一、环境开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark (Streaming & SQL) 2.4.3 MySQL:mysql-connector-java-5.1.47作业运行环境: 系统:Li...原创 2019-06-23 00:23:08 · 1450 阅读 · 0 评论 -
Spark Streaming输出至Kafka
1. 由Spark Streaming 向Kafka写数据,没有现成的官方接口,需要利用Kafka提供的底层接口。2. 第一种写法,如下,会报错:nameAddrPhoneStream.foreachRDD(rdd => { //在Driver中执行 //初始化生产者配置 val props = new Properties() props.setProperty...原创 2019-06-17 17:55:21 · 2462 阅读 · 15 评论 -
Spark Streaming输出至HBase
一、环境开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3 HBase 1.2.9作业运行环境: 系统:Linux CentOS7(两台机:主从节点,2核) master : 19...原创 2019-06-20 22:33:58 · 2372 阅读 · 0 评论 -
Spark之Join和聚合操作实例
一、环境Spark、Hadoop环境搭建可参看之前文章。开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3Spark运行环境: 系统:Linux CentOS7(两台机:主从节点) m...原创 2019-06-04 18:06:42 · 1060 阅读 · 0 评论 -
GitHub下载Spark源码失败的解决方法
参考自:github下载失败的问题解决方法一、问题描述(尝试的几种下载方式)1. 从Spark官网(http://spark.apache.org/downloads.html)下载失败;2. 从github下载Spark源码( .ZIP 下载)十分慢(17KB/s左右),并且下载到一般就异常结束;3. 先将项目Fork到自己仓库后下载,也是一样慢,且异常结束;4. 通过 ...原创 2019-06-04 14:47:15 · 1173 阅读 · 0 评论 -
Spark Streaming之流式黑名单词汇统计(广播变量、累加器实现)
一、案例介绍1. 在上篇博文 Socket数据源流式词频统计 的基础上,使用广播变量和累加器,实现对输入数据进行黑名单统计。2. 使用 wordCounts.foreachRDD() 对流数据中黑名单词汇统计,并输出至控制台: 1)方法定义:def foreachRDD(foreachFunc: (RDD[(String, Int)], Time) => Unit): Uni...原创 2019-06-09 18:45:14 · 485 阅读 · 0 评论 -
Spark之入门单词统计
一、环境Spark、Hadoop环境搭建可参看之前文章。开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3Spark运行环境: 系统:Linux CentOS7(两台机:主从节点) m...原创 2019-06-02 23:59:13 · 619 阅读 · 0 评论 -
Spark Streaming输出至MySQL
一、环境开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3 MySQL 5.1.47 MySQL c3p0 0.9.1.2 连接池作业运行环境: 系统:Linux CentOS7(两台机:...原创 2019-06-18 21:17:18 · 2093 阅读 · 1 评论 -
Spark Streaming分析Kafka数据
一、环境开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3 spark-streaming-kafka-0-10_2.11 (Spark Streaming 提供的Kafka集成接口) 注1....原创 2019-06-13 15:04:28 · 816 阅读 · 0 评论 -
Spark Streaming之流式词频统计(Socket数据源)
一、环境Spark、Hadoop环境搭建可参看之前文章。开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3Spark运行环境: 系统:Linux CentOS7(两台机:主从节点) m...原创 2019-06-05 20:39:16 · 1959 阅读 · 0 评论 -
Spark安装笔记
本机环境: CentOS7(虚拟机:1核、2GB内存) JDK1.8 Spark2.4 Scala2.12 使用的静态IP:(在 /etc/hosts 中配置) 192.168.190.200 master (主节点) 192.168.190.201 slave1 (从节点) 下载Scala版本:scala-2.12.6.tgz 地址:https://www.scala-l...原创 2019-05-30 23:06:05 · 367 阅读 · 3 评论