
大数据
文章平均质量分 90
呆萌的小透明
这个作者很懒,什么都没留下…
展开
-
大数据之Hadoop(DataNode)
6.1 DataNode工作机制(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。(3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。(4)集群原创 2021-01-08 12:37:16 · 542 阅读 · 0 评论 -
大数据之Hadoop(NameNode和SecondaryNameNode)
NameNode和SecondaryNameNode5.1 NN和2NN工作机制5.2 Fsimage和Edits解析5.3 CheckPoint时间设置5.4 NameNode故障处理5.5 集群安全模式5.5.1 概述5.5.2 基本语法5.5.3 案例5.6 NameNode多目录配置5.1 NN和2NN工作机制1、思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需原创 2021-01-08 12:37:02 · 385 阅读 · 1 评论 -
大数据之Hadoop(HDFS的数据流)
4.1 HDFS写数据流程4.1.1 剖析文件写入(1)HDFS客户端创建分布式文件系统(Distributed FileSystem)。(2)HDFS客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。(3)NameNode返回是否可以上传。(4)客户端请求第一个Block上传到哪几个DataNode服务器上。(5)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3(根据距离原创 2021-01-08 12:36:48 · 339 阅读 · 0 评论 -
大数据之Hadoop(HDFS客户端操作)
3.1 HDFS客户端环境准备1、根据电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径。2、配置HADOOP_HOME环境变量3、配置Path环境变量4、创建一个Maven工程HdfsClientDemon5、导入相应的依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId&g原创 2021-01-08 12:36:29 · 3070 阅读 · 0 评论 -
大数据之Hadoop(HDFS的Shell操作)
HDFS的Shell操作1、基本语法2、常用命令实操1、基本语法bin/hadoop fs 具体命令 或者 bin/hdfs dfs 具体命令dfs是fs的实现类2、常用命令实操(0)启动Hadoop集群sbin/start-dfs.shsbin/start-yarn.sh(1)-help:输出这个命令参数bin/hadoop fs -help rm(2)-ls:显示目录信息bin/hadoop fs -ls /(3)-mkdir:在HDFS上创建目录bin/hadoop fs原创 2021-01-08 12:36:00 · 213 阅读 · 0 评论 -
大数据之Hadoop(HDFS概述)
1.1 HDFS产生背景及定义1.1.1 HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.1.2 HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有原创 2021-01-08 12:35:41 · 189 阅读 · 0 评论 -
大数据之Hadoop(完全分布式运行模式)
4.3 完全分布式运行模式(1)准备3台客户机(关闭防火墙、静态ip、主机名称)(2)安装JDK(3)配置环境变量(4)安装Hadoop(5)配置环境变量(6)配置集群(7)单点启动(8)配置ssh(9)群起并测试集群4.3.1 虚拟机准备...原创 2021-01-04 18:31:40 · 233 阅读 · 0 评论 -
大数据之Hadoop(本地运行模型、伪分布式运行模式)
标题原创 2020-12-23 22:23:20 · 296 阅读 · 1 评论 -
大数据之Hadoop(Hadoop运行环境搭建)
虚拟机环境准备1、克隆虚拟机2、修改克隆虚拟机的静态IP3、修改主机名4、关闭防火墙5、创建atguigu用户6、配置atguigu用户具有root权限原创 2020-12-18 19:42:21 · 289 阅读 · 0 评论 -
大数据之Hadoop(从Hadoop框架讨论大数据生态)
Hadoop是什么(1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。(2)主要解决,海量数据的存储和海量数据的分析计算问题。(3)广义上来说,Hadoop通常是指一个更广泛的概念-Hadoop生态圈。Hadoop发展历史(1)Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。(2)2001年年底Lucene称为Apache基金会的一个子项目。(原创 2020-12-17 22:02:51 · 236 阅读 · 0 评论 -
大数据之Hadoop(大数据概论)
大数据概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB主要解决,海量数据的存储和海量数据的分析计算问题。大数据的特点(4V)1、Volume(大量):截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型的原创 2020-12-17 22:02:39 · 291 阅读 · 1 评论 -
Linux实操篇-学习笔记(三)
远程登录到Linux服务器为什么需要远程登录到Liunx?(1)linux服务器是开发小组共享的。(2)正式上线的项目是运行在公网上的。(3)因此程序员需要远程登录到centos进行项目管理或者开发。(4)远程登录客户端有Xshell、Xftp,我们学习使用Xshell5和Xftp5。如果希望安装好Xshell5就可以远程访问Linux系统的话,需要由一个前提,就是Linux启动了sshd服务,该服务会监听22号端口。Xshell5远程登录到Linux后,就可以使用指令来操作Linux系统原创 2020-12-16 22:23:31 · 174 阅读 · 0 评论 -
Linux基础篇--学习笔记(二)
Linux的目录结构Linux的文件系统是采用层式的树状目录结构,在此结构中最上层是根目录“/”,然后在此目录下再创建其他的目录。在Linux的世界里,一切皆文件。/dev 管理设备/bin:(/usr/bin, /usr/local/bin)是Binary的缩写,这个目录存放着最经常使用的命令/sbin:s就是Super User的意思,这里存放的是系统管理员使用的系统管理程序/home:存放普通用户的主目录,在Linux中每个用户都有一个自己的目录,一般该目录名时以用户的账号命名的。(us原创 2020-12-10 22:54:02 · 94 阅读 · 0 评论 -
Linux入门--学习笔记(一)
第一章 Linux入门原创 2020-12-10 22:53:47 · 103 阅读 · 0 评论