
hadoop
文章平均质量分 91
xiayto
这个作者很懒,什么都没留下…
展开
-
hadoop--HDFS
1 简介HDFS是一个分布式文件储存系统,数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。 它具有通透性和容错性: 通透性:让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一原创 2018-04-08 14:16:33 · 236 阅读 · 0 评论 -
hadoop--MapReduce
1 MapReduce整体概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。它分为两个阶段Map和Reduce。Map将问题进行拆分,并逐行的解析内容,将解析好的内容传给reduce进行业务操作。 map:读取一行的文件内容,将内容进行解析,处理为键值对传给reduce。 reduce:对map传入的键值对按照任务需求进行处理,形成新的键值原创 2018-04-08 21:40:07 · 222 阅读 · 0 评论 -
hadoop--HBase
1 简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。 2 逻辑思路和主要概念逻辑视图: ...原创 2018-04-09 01:23:51 · 314 阅读 · 0 评论 -
大数据--hadoop 伪分布式环境搭建
1.安装JDK1.1下载JDK1.2解压jdk创建文件夹:mkdir /usr/java解压:tar -zxvf jdk-7u55-linux-i586.tar.gz -C /usr/java/1.3将java添加到环境变量中vim /etc/profile 在文件最后添加 export JAVA_HOME=/usr/java/jdk1.7.0_55 export PATH=$PATH:原创 2018-04-06 09:00:16 · 393 阅读 · 0 评论