spark
肚子饿没人理
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【SPARK】- RDD操作
spark相关流程 每个Spark应用都由一个驱动器程序(drive program)来发起集群上的各种并行操作。驱动器程序包含应用的main函数,驱动器负责创建SparkContext,SparkContext可以与不同种类的集群资源管理器(Cluster Manager),例如Hadoop YARN,Mesos进行通信,获取到集群进行所需的资源后,SparkContext将得到集群中工作...原创 2018-09-11 13:52:09 · 1085 阅读 · 0 评论 -
【SPARK】- RDD持久化
因为RDD的惰性求值机制,每次遇到行动操作,都会触发一次从头开始的计算。这对于迭代计算而言,代价是很大的,迭代计算经常需要多次重复使用同一组数据。 因此,可以通过持久化(缓存)机制避免这种重复计算的开销 可以使用persist()方法对一个RDD标记为持久化(标记持久化:出现persist()语句的地方,并不会马上计算生成RDD并把它持久化,而是要等到遇到第一个行动操作触发真正计算以后,才会把...原创 2018-09-11 15:55:22 · 606 阅读 · 0 评论 -
【SPARK】- 共享变量
Spark 中的两个重要抽象是RDD和共享变量 当Spark在集群的多个不同节点的多个任务上,并行运行一个函数时,他会把函数中涉及到的每个变量在每个任务上都生成一个副本。 在做计算的时候,几个task任务需要公共数据,通过设置共享变量,减少开销---->设置几个共享变量(只读),将其发送至executor,所有task共享这些只读变量 为了满足这种需求,Spark提供了两种类型的变量:...原创 2018-09-17 16:36:38 · 255 阅读 · 0 评论 -
【SPARK】- RDD分区
RDD是弹性分布式数据集,通常RDD很大,会被分成很多分区,分别保存在不同节点上 分区原则 RDD分区是使分区的个数尽量等于集群中的CPU核心数目 默认分区数 对于不同的Spark部署模式而言(本地模式、Standalone模式、YARN模式、Mesos模式),都可以通过设置spark.default.parallelism这个参数的值来配置默认分区数。 本地模式:默认为本地机器的CPU...原创 2018-09-13 13:18:16 · 656 阅读 · 0 评论 -
【SPARK】流计算概述
流数据特征: 数据快速持续到达、潜在大小不可预测 注重数据的整体价值,不过分关注个别数据 数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序 数据量大,但不十分关注存储,一旦经过处理,要么被丢弃,要么归档存储 数据来源多,个事复杂 批量计算和实时计算 流计算系统要求:高性能、海量式、实时性、分布式、易用性、可靠性 传统的数据处理流程 隐藏两个前提: 1...原创 2018-09-26 14:51:00 · 820 阅读 · 0 评论 -
【SPARK】Spark Streaming简介
Spark Streaming可以整合多种输入数据源,如Kafka、Flume、HDFS甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库、或显示在仪表盘。 Spark Streaming执行流程 Spark Streaming的基本原理是将实时输入数据流以时间片(秒级)为单位进行拆分,然后经Spark引擎以类拟批处理的方式处理每个时间片数据 DStream操作示...原创 2018-10-08 15:19:21 · 456 阅读 · 0 评论
分享