Spark
文章平均质量分 78
fengfengchen95
迷茫是因为有太多的时间去胡思乱想,唯独让自己充实,一直处于忙碌状态,就没有时间去迷茫
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark入门
一、Spark概述Apache Spark是一种闪电般的群集计算技术,专为快速计算而设计。 它基于Hadoop MapReduce,它扩展了MapReduce模型以便将其用于更多类型的计算,其中包括交互式查询和流处理。Spark的主要特点是其内存集群计算,可提高应用程序的处理速度,Spark旨在涵盖各种工作负载,如批处理应用程序,迭代算法,交互式查询和流式处理。 除了在各自的系统中支持所有这些工作...原创 2018-05-22 11:44:40 · 690 阅读 · 0 评论 -
(转)Spark核心技术原理透视一(Spark运行原理)
Spark核心技术原理透视一(Spark运行原理)在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。来源:加米谷大数据在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的Ha...转载 2018-10-22 09:22:38 · 237 阅读 · 0 评论 -
Spark启动时的master参数以及Spark的部署方式
Spark启动时的master参数以及Spark的部署方式 geekpy 关注2017.02.10 22:20* 字数 900 阅读 5711评论 0喜欢 2赞赏 1我们在初始化SparkConf时,或者提交Spark任务时,都会有master参数需要设置,如下:conf = SparkConf().setAppName(appName).setMaster(master)sc...转载 2018-08-07 15:17:26 · 755 阅读 · 0 评论 -
RDD介绍
一.Driver Program包含程序的main()方法程序入口,RDDs的定义和操作,它管理很多节点executors二、SparkContextDriver Program通过SparkContext对象访问SparkSparkContext对象代表和一个集合的连接在Shell中SparkContext自动创建好了,就是sc三、RDDResilient distributed dataset...原创 2018-05-24 14:11:41 · 380 阅读 · 0 评论 -
RDD算子介绍
一、RDD算子简介提供一优秀RDD讲解链接:https://blog.youkuaiyun.com/fortuna_i/article/details/81170565spark在运行过程中通过算子对RDD进行计算,算子是RDD中定义的函数,可以对RDD中数据进行转换和操作,如下图输入:spark程序中数据从外部数据空间输入到spark中的数据块,通过BlockManager进行管理运行:...原创 2018-05-29 11:26:44 · 3747 阅读 · 0 评论 -
开发第一个Spark程序
WorldCount程序一、需求:对文本文件中的单词个数进行统计二、步骤: 1.创建一个Spark Context 2. 加载数据 3.把没一行分割成单词 4.转换成键值对并且计数。三、开发环境 IDEA+Maven, scala开发语言 ...原创 2018-05-23 16:39:27 · 6601 阅读 · 0 评论 -
(转)Spark中cache和persist
转:https://blog.youkuaiyun.com/qq_20641565/article/details/76216417Spark中cache和persist的作用以及存储级别2017年07月27日 19:12:20 lijie_cq 阅读数:10186 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/qq_20641565/artic...转载 2019-01-08 10:26:32 · 226 阅读 · 0 评论
分享