
spark
Smile to everyday
这个作者很懒,什么都没留下…
展开
-
Spark Streaming【数据流处理原理分析】
Spark Streaming介绍Spark Streaming它是对Spark核心API的扩展,目的在于对实时数据流进行高吞吐、高容错的处理。Spark Streaming底层是Spark Core。Spark Streaming流处理框架Spark Streaming 原理首先Spark Streaming前面也说到了是对数据流的处理。数据流是指:数据的流入、数据的处理、数据的流出。数据流处理是一种允许用户在接收到数据后的短时间内快速查询连续数据流和检测条件的技术。数据流处理是针对无界的、小原创 2020-08-23 16:16:44 · 1541 阅读 · 0 评论 -
Spark Streaming处理hdfs上数据流时,取不到hdfs数据流得数据
Spark Streaming的spark代码运行时发现收取不到hdfs相应的是数据流案例代码import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}object HDFSInputDStreamDemo extends App { val conf: Spa原创 2020-08-21 08:32:37 · 726 阅读 · 0 评论 -
spark三种模式【Standalone 模式、yarn 运行模式、local(本机)】
Standalone 模式standalone模式也叫作独立模式,自带完整的服务,可单独部署到一个集群中,无序依赖任何其他资源管理系统。 从一定程度上来说,该模式是其他两种模式的基础。借鉴Spark开发模式,我们可以得到一种开发新型计算框架的一般思路:先设计出它的standalone模式,为了快速开发,期初不需要考虑服务(比如master、slaves)的容错性,之后开发相应的wrapper,将standalone模式下的服务原封不动的部署到资源管理系统yarn或者mesos上,有资源管理系统负责服务本身原创 2020-08-07 00:22:48 · 9437 阅读 · 0 评论 -
初学Spark
使用Spark的目的MapReduce编程模型的局限性* 繁杂 * 只有Map和Reduce两个操作,复杂的逻辑需要大量的样板代码* 处理效率低: * Map中间结果卸载磁盘上,Reduce写在HDFS,多个Map通过HDFS交换数据 * 任务调度与开启开销大* 不适合迭代处理,交互式处理和流式处理Spark是类Hadoop MapReduce的通用并行框架* Job中间输出结果可以保存在内存中,不在需要读写HDFS* 比MapReduce平均快10倍以上Spark优势速原创 2020-08-06 18:47:03 · 844 阅读 · 0 评论 -
spark算子练习
一、数据准备创建student文件12 张三 25 男 chinese 5012 张三 25 男 math 6012 张三 25 男 english 7012 李四 20 男 chinese 5012 李四 20 男 math 5012 李四 20 男 english 5012 王芳 19 女 chinese 7012 王芳 19 女 math 7012 王芳 19 女 english 7013 张大三 25 男 chinese 6013 张大三 25 男 math 6013 张大原创 2020-08-05 23:47:03 · 1177 阅读 · 0 评论 -
spark安装
安装spark前的准备工作在安装spark前检查是否安装了jdk,以及jdk版本是否与即将安装的spark版本一致安装包下载链接:spark安装包提取码:lyq6将spark安装包拖入linux系统中进行安装将安装包放在更目录下创建的software文件夹中//找到更目录cd ~//创建文件夹mkdir software将安装包放入文件夹中解压安装包到相应的文件夹下//解压安装包到相应的文件夹下tar -zxvf spark-2.2.0-bin-hadoop2.7.t原创 2020-08-04 19:35:54 · 980 阅读 · 0 评论