
hadoop
lljazxx
这个作者很懒,什么都没留下…
展开
-
大数据 相关组件 大全 简述
大数据相关组件大全简述本文提到的有:Hadoop,HDFS,MapReduce,Yarn,Zookeepe,Hive,HBase,Kafka,Storm,Sqoop,Flume,Scala,SparkHadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决,海量数据的存储和海量数据的分析计算问题。HADOOP通常是指一个更广泛的概念——HADOOP生态圈Hadoop =...原创 2019-11-21 22:49:20 · 1988 阅读 · 0 评论 -
hadoop集群 安装 部署 详解
hadoop集群 安装 部署软件安装等严格按照目录Root用户虚拟机环境准备克隆三台虚拟机修改主机名 /etc/sysconfig/network sync然后重启主机名分别为:hadoop101;hadoop102;hadoop103;修改克隆虚拟机的静态ip,分别为:IP分别为:192.168.1.101;192.168.1.102;192.168.1.103配置主机名...原创 2019-11-07 23:35:57 · 824 阅读 · 6 评论 -
数据仓库与数据库比较,Hive数据仓库与数据库比较
数据仓库(以Hive为例)和数据库比较Hive是一个翻译工具,将sql翻译为底层mr程序的,它不是数据库,只不过在表现形式上和数据库有很多类似而已(比如表、database、字段等)数据库可以用在 Online(在线) 的应用中,但是Hive 是为数据仓库而设计的数据库可以增删查改,数据仓库只可以增删查数据仓库支持很大规模的数据;数据库支持的数据规模较小数据仓库没有索引,数据库有数据仓...原创 2019-11-06 14:53:22 · 772 阅读 · 0 评论 -
DataNode工作机制
DataNode工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删...原创 2019-11-06 13:35:55 · 195 阅读 · 0 评论 -
NameNode和SecondaryNameNode工作机制
NameNode和SecondaryNameNode工作机制第一阶段:NameNode启动(1)第一次启动NameNode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求。(3)NameNode记录操作日志,更新滚动日志。(4)NameNode在内存中对数据进行增删改查。第二阶段:Seconda...原创 2019-11-06 13:34:12 · 339 阅读 · 0 评论 -
HDFS的读写数据流
HDFS的数据流HDFS写数据流程1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)NameNode返回3个datanode节点,分别为dn1、dn2、dn3。5)客户端通过...原创 2019-11-06 13:31:52 · 299 阅读 · 0 评论 -
HDFS是啥?HDFS原理 HDFS详解
HDFS概念HDFS(Hadoop Distributed File System): 它是一个分布式文件系统,用于存储文件,通过目录树来定位文件;HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。HDFS优缺点优点1)高容错性(1)数据自动保存多个副本。它通过增加副本的形式,提高容错性;(2)某一个副本丢失以后,它可以自动恢...原创 2019-11-06 11:28:39 · 2909 阅读 · 0 评论 -
Hadoop是啥? hadoop生态系统
Hadoop是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,hadoop通常是指一个更广泛的概念——hadoop生态圈创始人: Lucene–Doug CuttingHadoop组成点击详解1)Hadoop HDFS:(hadoop distribute file system )一个高可...原创 2019-11-06 10:30:05 · 691 阅读 · 0 评论 -
大数据是啥?大数据特点 大数据概念
大数据大数据概念大数据(bigdata):指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是海量,高增长率和多样性的信息资产。主要解决海量数据的存储和海量数据的分析计算问题。大数据特点简称:4V大量(volume):数据量大高速(velocity):高速处理,在如此海量的数据面前,处理数据的效率就是企业的生命多样性(variety):数据多样性,包括结构化数据和...原创 2019-11-06 09:38:30 · 665 阅读 · 0 评论 -
MapReduce企业优化,Hadoop企业优化
MapReduce企业优化,Hadoop企业优化MapReduce跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1.计算机性能CPU、内存、磁盘健康、网络2.I/O 操作(1)数据倾斜(2)map和reduce数设置不合理 combineTextinputformat,分区(3)map运行时间太长,导致reduce等待过久(4)小文件过多(5)spill(溢出)次数过...原创 2019-11-05 23:24:43 · 224 阅读 · 0 评论 -
Yarn是啥? 详解 原理
Yarn是啥? 详解+原理Yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn基本架构YARN主要由ResourceManager、NodeManageApplicationMaster(AM)和Container等组件构成Yarn工作机制(1)Mr程序...原创 2019-11-05 22:50:16 · 12637 阅读 · 0 评论 -
MapReduce是啥? 详解
MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。MapReduce优缺点优点:MapReduce 易于编程- -它简单的实现一些接口良好的扩展性- -简单的增加机器来扩展它的...原创 2019-11-05 22:29:23 · 2557 阅读 · 0 评论 -
Java的序列化Serilazable与hadoop序列化机制Writable
Java的序列化SerilazableJava的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。hadoop序列化机制Writable1.紧凑紧凑的格式能让我们充分利用网络带宽,而带宽是数据中心最稀缺的资源2.快速进程通信形成了分布式系统的骨架,所以需要尽量减少序列化和...原创 2019-11-05 20:29:49 · 522 阅读 · 0 评论 -
hadoop hdfs 问题集锦 面试问题集锦
hadoop hdfs问题集锦一:hadoop为什么不适合处理大量的小文件,怎么解决?原因:1:文件的元数据(包括文件被分成了哪些blocks,每个block存储在哪些服务器的哪个block块上),都是存储在namenode上的内存,会对namenode的内存造成压力;2: 文件过多会造成文件的定位时间(又称寻址时间)增大;3:监管时间问题:dataNode会向NameNode发送两种...转载 2019-10-26 16:05:00 · 135 阅读 · 0 评论