- 博客(6)
- 收藏
- 关注
原创 大数据初体验之概念篇(5)MapReduce篇
随着学习的深入,接触到了Hadoop的框架MapReduce,本文旨在对其进行初步概述。 1、MapReduce是什么 MapReduce是Hadoop的一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce的概念主要由“Map(映射)”和“Redu
2018-01-27 19:24:27
300
原创 大数据初体验之概念篇(4)
一、校验和 首先,校验和(常用循环冗余校验CRC-32)是Hadoop提供的两种校验方法之一。另一种方法是运行后台进程来检测数据块。 校验和主要分为五个步骤进行校验: ①、写入数据节点验证 Hdfs会对写入的所有数据计算校验和,并在读取数据时验证校验和。 元数据节点负责在验证收到的数据后,储存数据及其校验和。在收到客户端数据或复制其他datanode的数据时
2018-01-27 01:36:53
331
原创 大数据初体验之概念篇(3)
接触到了HDFS架构,不得不说大数据的出现提高了处理日益增长的数据量,也就是TB级以上的数据的效率。具体概念见下文。 一、元数据块是什么? 首先说明一下元数据的概念:元数据是用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。更简单的说,是关于数据的数据。 元数据块就是海量数据进行处理后,形成的带有标识的数据的数据。海量数据通过
2018-01-25 09:12:58
311
转载 hdfs的xshell命令及个人理解
在xshell下对hdfs的命令的初步体验,源自他人博客,转载方便查阅,并加上了一些个人理解。 一、 DFS:distributied file system 是一种允许文件通过网络在多台主机上风向的文件系统,可让多机器上的多用户分享文件和存储空间 二、HDFS的shell **切记后面加的 / 符号 #hadoop fs -ls / 查看HDFS根目录 #h
2018-01-25 00:51:29
1568
原创 大数据初体验之概念篇(2)
接上篇,对一些基本概念的归纳总结。来源较广,但总体属于个人总结。 1、CAP原理 Consistency(一致性)Availability(可用性)Partition tolerance(分区容忍性) CAP原理指的是三个要素最多只能实现两点,无法三者兼得。分区容忍性是基本要求,因而要求在一致性和可用性之间取平衡。 2、BASE理论 CAP理论的延伸,核心思想是无法做到强一致性也可以采用
2018-01-23 19:48:50
228
原创 大数据初体验之概念篇(1)
1、大数据是什么? 可以用4个v来概述: volume 海量的数据规模 velocity 快速的数据流转和动态的数据体系 variety 多样的数据类型 value 巨大的数据价值 还有一个特点是在线的。 2、数据仓库DataWarehouse : 面向主题的、集成的、与时间相关且不可修改的数据集合 数据仓库是一种资讯系统的资料储存理论,此理论强调利用某些特殊
2018-01-22 22:32:20
269
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人