
大数据
灯火阑珊不知处
这个作者很懒,什么都没留下…
展开
-
Hadoop概述
Hadoop项目主要包括4个部分: 1、Hadoop Common:支撑其他模块 2、Hadoop Distributed File System:分布式系统对应用提供高吞吐量的访问。 3、Hadoop Yarn:资源管理和任务调度的一个框架。 4、Hadoop Mapreduce:能够并行处理大数据集的Yarn基本系统。Hadoop相关项目: 1、Arvo:是一个比较流行的数据序列化系原创 2018-04-23 20:00:17 · 271 阅读 · 0 评论 -
Hadoop的IO操作
Hadoop自带一套原子操作用于数据I/O操作。其中有一些技术比Hadoop本身更常用,如数据完整性和压缩,序列化框架和盘数据结构。数据完整性 检测数据是否损坏的常见措施是,在数据第一次引入系统时计算校验和并在数据通过一个不可靠的通道进行传输时再次计算校验和,这样就能发现数据是否损坏,如果计算所得的新校验和和原来的校验和不匹配,我们就认为数据已损坏。但该技术并不能修复数据。常见的错误检测码是...原创 2018-07-08 15:26:47 · 5052 阅读 · 1 评论 -
Mapredce应用开发
管理配置:假设目录conf包含三个配置文件:hadoop-local.xml,hadoop-localhost.xml和hadoop-cluster.xml。hadoop-local.xml包含默认的Hadoop配置。hadoop-localhost.xml文件中的设置指向本地主机运行的namenode和YARN资源管理器hadoop-cluster.xml文件包含集群上namenod...原创 2018-07-11 19:34:20 · 347 阅读 · 0 评论 -
Mapreduce
Mapreduce是一个批量查询处理器,基本上是一个批处理系统,并不适合交互式分析。HBase,一种使用HDFS做底层存储的键值存储模型。HBase不仅提供对单行的在线读/写访问,还提供对数据块读/写的批操作。 一些不同的,能与Hadoop协同工作的处理方式: 1.交互式SQL 利用Mapreduce进行分发并使用一个分布式查询引擎,使得在Hadoop上获得SQL查询低延迟响应的同时还能保持...原创 2018-07-05 16:32:55 · 288 阅读 · 0 评论 -
HDFS
HDFS中fsck指令可以显示块信息hdfs fsck / -files -blocksnamenode和datanodeHDFS集群有两类节点以管理节点-工作节点模式运行,即一个namenode(管理节点)和多个datanode(工作节点)。namenode管理文件系统的命令空间。它维护着文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜...原创 2018-07-05 19:12:19 · 868 阅读 · 0 评论 -
关于YARN
YARN是Hadoop的集群资源管理系统。YARN应用运行机制YARN通过两类长期运行的守护进程提供自己的核心服务:1.管理集群上资源使用的资源管理器(resource manager) 2.运行在集群中所有节点上且能够启动和监控容器的节点管理器。容器用于执行特定应用程序的进程,每个容器都有资源限制。为了在YARN上运行一个应用,首先,客户端联系资源管理器,要求它运行一个applica...原创 2018-07-06 21:46:39 · 428 阅读 · 0 评论