- 博客(6)
- 收藏
- 关注
原创 spark常用算子
一.Action操作1.first:返回rdd中的以一个元素scala> var rdd = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2) scala> rdd.first //输出结果为:(A,1) scala> var rdd = sc.makeRDD(Seq(10, 3, 1, 13,
2018-05-27 18:56:18
1811
原创 spark架构,运行原理。
一.简介Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。Spark 是一个用来实现快速而通用的集群计算的平台。Spark 的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上进行的复杂计算,Spark 依然比MapReduce 更加高效(官方称其速度比MapReduce要快100倍)Spark 所提供的接口非常丰富...
2018-05-16 19:54:48
1921
1
原创 hadoop集群资源管理系统YARN以及YARN的运行原理
一.简介:YARN (Yet Another Resource Negotiator)1. (官网解释)最基本的思想是纱线拆分功能的资源管理与作业调度/监控到单独的进程。具体设想是全球(ResourceManagerRM)和每应用程序(applicationmasterAM)。应用程序是一个单一的DAG或作业的作业。2.在hadoop 1.x中jobtracker负责作业的调度(将任务与task...
2018-05-08 20:40:20
1148
原创 MapReduce简介,功能,运行原理,job的提交过程,简单的MapReduce程序求最高气温
一.MapRedeuce简介 1.2004年12月,google发布关于MapReduce的文章。 2.hadoop分布式计算框架。官方定义:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编...
2018-05-03 20:35:27
1293
原创 Hadoop核心组件之HDFS
一.HDFS简介 HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),源自于Google于2003年10月发表的GFS论文,是GFS克隆版,为hadoop提供存储功能。官方解释:Hadoop分布式文件系统(HDFS)是一种为在商用硬件上运行而设计的分布式文件系统。 它与现有的分布式文件系统有许多相似之处。 但是,与其他分布式文件系统的不同的地方很...
2018-04-17 20:55:34
563
原创 Linux下Hadoop集群搭建(2.7.3)完全分布式
一.准备工作1.1台已经搭建好的Linux操作系统2.Hadoop及jdk的安装包 (Hadoop是用Java开发的,所以Hadoop的编译及MapReduce的运行都需要使用JDK)3.上传文件到Linux的工具 本人习惯用winscp开机自动启动sshd:chkconfig sshd on开机自动关闭防火墙:chkconfig iptables off(注意:必须开启sshd并关闭防火...
2018-04-08 13:13:44
762
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人