
java大数据
文章平均质量分 84
某勾大数据开发高薪训练营14期学习笔记
假装文艺范儿
2022.11.04重启博客,这一次出发,不会再停下。始于java,不止于java。
展开
-
1.5.6 NN与2NN-hadoop-最全最完整的保姆级的java大数据学习资料
问题1:NameNode如何管理和存储元数据?计算机中存储数据两种:内存或者是磁盘元数据存储磁盘:存储磁盘无法面对客户端对元数据信息的任意的快速低延迟的响应,但是安全性高元数据存储内存:元数据存放内存,可以高效的查询以及快速响应客户端的查询请求,数据保存在内 存,如果断点,内存中的数据全部丢失。 解决方案:内存+磁盘;NameNode内存+FsImage的文件(磁盘) 新问题:磁盘和内存中元数据如何划分? 两个数据一模一样,还是两个数据合并到一起才是一份完整的数据呢? 一模一样:client如果对元数据进行原创 2022-12-10 08:47:39 · 294 阅读 · 1 评论 -
1.5.5 HDFS读写解析-hadoop-最全最完整的保姆级的java大数据学习资料
客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,dn1收到一个Packet就会传给dn2,dn2传给dn3;客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。dn1、dn2、dn3逐级应答客户端。原创 2022-12-09 08:31:36 · 317 阅读 · 0 评论 -
1.5.4 HDFS 客户端操作-hadoop-最全最完整的保姆级的java大数据学习资料
HDFS命令演示启动Hadoop集群(方便后续的测试) -help:输出这个命令参数 -ls: 显示目录信息 -mkdir:在HDFS上创建目录 -moveFromLocal:从本地剪切粘贴到HDFS -appendToFile:追加一个文件到已经存在的文件末尾 输入 -cat:显示文件内容 -chgrp 、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限 -copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去 -co原创 2022-12-07 08:54:42 · 608 阅读 · 0 评论 -
1.5 HDFS分布式文件系统-hadoop-最全最完整的保姆级的java大数据学习资料
HDFS(全称:Hadoop Distribute File System,Hadoop 分布式文件系统)是 Hadoop 核心组成,是分布式存储服务。分布式文件系统横跨多台计算机,在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。HDFS是分布式文件系统中的一种。HDFS 通过统一的命名空间目录树来定位文件;另外,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色(分布式本质是拆分,各司其职)典型的 Master/Slave 架构HDFS 的架构是典型的原创 2022-12-06 19:24:46 · 230 阅读 · 0 评论 -
1.4 Apache Hadoop完全分布式集群搭建-hadoop-最全最完整的保姆级的java大数据学习资料
软件和操作系统版本 Hadoop框架是采用Java语言编写,需要java环境(jvm) JDK版本:JDK8版本 集群: 知识点学习:统一使用vmware虚拟机虚拟三台linux节点,linux操作系统:Centos7 生产阶段:建议最少5台服务器节点 Hadoop搭建方式 单机模式:单节点模式,非集群,生产不会使用这种方式 单机伪分布式模式:单节点,多线程模拟集群的效果,生产不会使用这种方式 完全分布式模式:多台节点,真正的分布式Hadoop集群的搭建(生产环境建议使用这种方式)原创 2022-12-05 09:16:58 · 522 阅读 · 0 评论 -
1.3 Apache Hadoop的重要组成-hadoop-最全最完整的保姆级的java大数据学习资料
比如:100T数据存储, “分而治之” 。分:拆分–>数据切割,100T数据拆分为10G一个数据块由一个电脑节点存储这个数据块。数据切割、制作副本、分散储存图中涉及到几个角色 NameNode(nn):存储文件的元数据,比如文件名、文件目录结构、文件属性(生成时间、副 本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 SecondaryNameNode(2nn):辅助NameNode更好的工作,用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照。 DataNode(d原创 2022-12-04 09:18:21 · 458 阅读 · 0 评论 -
1.2 Hadoop简介-hadoop-最全最完整的保姆级的java大数据学习资料
Hadoop 是一个适合大数据的分布式存储和计算平台 如前所述,狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态 圈,包括很多其他软件框架 Hadoop生态圈技术栈 Hadoop(HDFS + MapReduce + Yarn) Hive 数据仓库工具 HBase 海量列式非关系型数据库 Flume 数据采集工具 Sqoop ETL工具 Kafka 高吞吐消息中间件 …Hadoop 的发展历程可以用如下过程概述: Nutch —> Google论文(原创 2022-12-03 16:10:06 · 413 阅读 · 0 评论 -
1.1 大数据简介-hadoop-最全最完整的保姆级的java大数据学习资料
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处 理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。原创 2022-12-02 23:30:19 · 1113 阅读 · 0 评论