
大数据
大数据
星茗
没有亲身经历过世间的人情冷暖,又何来感同身受
展开
-
spark集群搭建
spark集群搭建1.Standalone集群搭建与Spark on Yarn配置Standalone:Standalone集群是Spark自带的资源调度框架,支持分布式搭建。搭建建议: Standalone节点数为3台,1台master,2台worker。 虚拟机中每台节点的内存至少给2G和2个核(core) 这样才能保证后期Spark基于Standalone的正常运行。2.搭建Standalone集群的步骤:1)下载安装包,解压1.登录Spark官网下载Spark,官网网址:spar原创 2021-08-04 17:41:09 · 329 阅读 · 0 评论 -
sparkCore-核心、算子、持久化算子
一、Spark核心1.RDD1)概念:RDD(Resilient Distributed Dateset),弹性分布式数据集2)RDD的五大特性1.RDD是由一系列的partition组成的。2.函数是作用在每一个partition(split)上的。3.RDD之间有一系列的依赖关系。4.分区器是作用在K,V格式的RDD上的。5.RDD提供一系列最佳的计算位置。3)RDD的理解图:4)注意:1.textFile方法底层封装的是读取MR读取文件的方式,读取文件之前先split,默原创 2021-08-03 17:25:28 · 314 阅读 · 0 评论 -
Spark初识及Spark maven项目搭建
一、Spark初始1.什么是Spark?Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop Mapreduce所具有的有点,但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。2原创 2021-08-03 10:37:01 · 898 阅读 · 0 评论 -
zookeeper集群分布式搭建
Zookeeper集群分布式搭建1. 四台服务器之间免密登录四台服务服务器之间互相均可以免密登录1.首先在四台服务器上都要执行: ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa2. 在 node1 上将 node1 的公钥拷贝到 authorized_keys 中: cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 将该文件拷贝给 node2: scp ~/.ssh/authorized_keys n原创 2021-04-23 17:48:22 · 184 阅读 · 0 评论 -
HDFS完全分布式搭建
#### HDFS完全分布式搭建规划:node1node2node3node4NameNodeSecondaryNameNodeDataNode-1DataNode-2DataNode-3搭建步骤一、免密设置四台服务器之间互相均可以免密登录1. 首先在四台服务器都要执行 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 2. 在 node1上将 node1 的公钥拷贝到 authorized_keys 中原创 2021-04-23 14:50:22 · 190 阅读 · 0 评论 -
Hadoop伪分布式搭建
Hadoop伪分布式搭建环境准备hadoop的tar包jdk的rpm包搭建过程上传 hadoop 的 tar 包和 jdk 的 rpm 包 1. 将以上两个包上传的linux服务器/opt/apps目录下 2. 通过命令:tar -zxvf hadoop-2.6.5.tar.gz -C /opt 进行上传到/opt目录下安装 jdk 并且配置环境变量 1. 解压 jdk 压缩包 命令:rpm -ivh jdk-8u221-linux-x64.rpm 2. 环境变量配置 命令:原创 2021-04-20 21:28:48 · 131 阅读 · 0 评论 -
HDFS读文件流程
HDFS读文件流程客户端通过 FileSystem 对象的 open 方法打开希望读取的文件, DistributeFileSystem 对象通过 RPC 调用 namenode,以确保文件起始位置。对于每个block,namenode 返回存有该副本的 datanode 地址。这些 datanode 根据他们与客户端的距离来排序。如果客户端本身就是一个 datanode,并保存有响应block一个副本,会从本地读取这个block数据。DistributeFileSystem 返回一个 FSData原创 2021-04-20 20:03:48 · 204 阅读 · 0 评论 -
HDFS写文件流程
HDFS写文件流程调用客户端的 DistributedFileSystem 的 create() 方法;DistributedFileSystem 会发起对 namenode 的一个RPC连接,请求创建一个文件,不包含关于 block 块的请求。namenode 会执行各种各样的检查,保证要创建的文件不存在,并且客户端有创建文件的权限。如果检查通过,namenode 会创建一个文件(在edits中,同时更新内存状态),否则创建失败,客户端抛异常IOException。Distribu原创 2021-04-20 17:50:20 · 368 阅读 · 0 评论 -
Hadoop的安全模式
Hadoop的安全模式工作流程:1. 启动NameNode,NameNode加载fsimage到内存中,对内存数据执行edits log日志中的事务操作。2. 文件系统元数据内存镜像文件加载完毕,进行fsimage和edits log日志合并, 并创建新的fsimage文件和一个空的edits log日志文件。3. NameNode等待DataNode上传block列表信息,直到副本数量满足最小副本条件。4. 当满足了最小副本条件,再过30秒,NameNode就会退出安全模式,最小副本条件指整个原创 2021-04-20 15:56:27 · 561 阅读 · 0 评论 -
Hadoop初认识
Hadoop核心组件1.Hadoop通用组件 -- Hadoop Common 包含了其他hadoop模块要用到的库文件和工具2.原创 2021-04-20 13:59:53 · 190 阅读 · 0 评论