- 博客(15)
- 收藏
- 关注
原创 Spark学习(四)之Spark运行流程
文章目录一、Spark中的基本概念二、Spark的运行流程一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Applicati...
2018-11-19 19:39:48
475
原创 Spark学习(三)之 RDD
文章目录1、什么是RDD1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。...
2018-11-16 14:32:34
308
原创 Spark学习(二) 之集群搭建(standalone、HA-standalone、 spark on yarn)
Spark standalone(一)Spark安装包下载(二)安装过程(三)启动(四)验证Spark standalone HASpark on YARNSpark standalone(一) Spark安装包下载(1)官网下载http://spark.apache.org/downloads.htmlSpark standalone(二) 安装过程1、上传并解压缩...
2018-11-15 20:17:50
650
原创 Hive的三种搭建模式及远程方式详细搭建步骤
Hive的搭建hive三种方式区别和搭建按照Hive中metastore(元数据存储)不同位置分为三种方式: a)内嵌Derby方式 b)Local方式 c)Remote方式1,安装Hive 解压下载好的apache-hive-1.2.1-bin.tar.gz安装包到 /opt/apache-hive-1.2.1目录下 tar -zxvf apache-hive-1.2.1-bin.tar.gz ...
2018-11-05 18:53:07
2061
原创 Hive基本原理
1. Hive简介        hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类S
2018-11-05 17:27:10
303
原创 yarn集群搭建
yarn集群搭建步骤规划NN1NN2DNZKZKFCJNNRSNMnode01√√√√node02√√√√√√node03√√√√node04√√√1.修改yarn-site.xml步骤<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_...
2018-11-01 18:41:37
231
原创 Hadoop1.x版本和Hadoop2.x版本架构原理
MapReduce 1.x 架构MapReduce 1.x 采用 Master/Slave 架构,由全局唯一的 Jobtracker 和多个 TaskTacker 组成,并且在Client中提供一系列的api供编程和管理使用。1.client提供api供用户编程调用,将用户编写的MapReduce程序提交到JobTracker中。2. JobTracker负责资源调度 主节点 发生故...
2018-10-18 22:05:46
832
原创 分布式MapReduce原理详解
MapReduce原理一、什么是MapReduce?&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;MapReduce是一个基于 java 的并行分布式计算框架,使用它来编写的数据处理应用
2018-10-16 23:01:23
1450
1
原创 大数据相关知识点总结汇总
大数据课程分布式存储HDFS1. Hadoop的历史作者dogcuttingDoug Cutting是Lucene、Nutch 、Hadoop等项目的发起人1.1.Hadoop的三驾马车GFSMapReduceBigTable1.2.hadoop生态圈hdfsmapreduceyarncommon2.HDFS的存储原理2.1 各个角...
2018-10-15 20:05:23
5294
原创 HA-高可用HDFS集群搭建步骤
HA-高可用HDFS集群搭建步骤首先。集群规划NN-1NN-2DNZKZKFCJNNnode01✔✔✔node02✔✔✔✔✔node03✔✔✔node04✔✔1. 时间同步各个节点安装ntp命令yum install ntp上网查找最新的时间服务器ntp1.aliyun.com同步...
2018-10-12 14:57:54
449
原创 hdfs分布式搭建出现的常见错误问题
hdfs三种模式搭建步骤hadoop集群启动但不能访问50070分为两种情况1.在虚拟机内linux系统中浏览器不能访问,首先查看自己防火墙是否关闭service iptables status若未关防火墙chkconfig iptables off必须重启linux系统后检查防火墙状态查看 vim /etc/hosts文件,看是否修改成功或相对应,最后浏览...
2018-10-10 23:07:39
1223
原创 HDFS伪分布式和完全分布式搭建步骤
HDFS的三种搭建模式1.伪分布式搭建搭建步骤配置免密登录[root@localhost ~]# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa[root@localhost ~]#ssh-copy-id -i ~/.ssh/id_rsa.pub root@node01配置jdklinux安装jdk配置修改hdfs-site.xml,c...
2018-10-10 00:47:08
379
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人