
Hadoop
文章平均质量分 74
晓风well
A student
展开
-
在CentOS上安装Hadoop集群
Hadoop是Apache组织的一个顶级项目,它是一个分布式系统架构。Hadoop实现了一个分布式文件系统(HDFS),易于部署在低廉的硬件设备上,并且极易扩充。Hadoop的核心是HDFS和MapReduce。本篇文章主要介绍如何安装Hadoop集群,伪分布模式的安装应该是简单的,因此这里旨在在3台互通的centOS平台上安装完全分布模式的Hadoop集群。 准备工作:3台装有cent原创 2013-11-22 00:14:58 · 2038 阅读 · 0 评论 -
Hadoop HDFS常用命令
HDFS的特点: 一次写入,多次读取 HDFS下的文件操作: 1.列出HDFS文件 hadoop dfs -ls //未带参数的-ls命令没有任何返回值,默认返回HDFS的“home”目录下的内容 //HDFS中,没有当前工作目录这样的概念,也没有cd这个命令 2.列出HDFS目录下某个文档中的文件 hadoop dfs -ls in 3.上传文件到HDFS(下面的命令原创 2013-11-29 21:18:44 · 1914 阅读 · 0 评论 -
Google File System架构
GFS是一个面向大规模数据密集型应用的,可伸缩的分布式文件系统。GFS可以运行在廉价的设备上,并且能够提供具有容灾、高性能的服务。 GFS架构: 一个GFS集群包括一个单点Master,多台Chunk服务器(ChunkServer,下面也称块服务器),并且能够同时被多个客户端访问。如图1所示。所有的这些机器可以使普通的运行用户级线程的Linux机器。只要机器允许,我们完全可以将客户端与原创 2014-01-05 20:37:23 · 2043 阅读 · 0 评论 -
MapReduce编程模型
MapReduce是一个Google发明的编程模型,也是一个处理和生成超大规模数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于对的数据集合,输出的中间结果基于对的数据集合,然后再创建一个Reduce函数用来合并所有的具有相同中间Key值的中间Value值。 MapReduce架构的程序可以实现在大量普通配置的设备上实现分布式计算。在Google的集群中,每天都有1000多个Ma原创 2014-01-07 15:39:07 · 2750 阅读 · 0 评论 -
大数据及下一代基础设施
什么是大数据? 对于大数据的概念,这里给出的定义是超出现有数据库系统处理能力的数据。由于过快的数据产生速度,以及规模巨大的数据量,这就要求使用合适的系统来处理它们。 大数据的价值主要可以分为两种:数据分析、开发新产品。大数据分析能够揭露消费行为及趋势,如消费者如何受到同龄人的影响。对开发新产品而言,通过组合大量数据所透出的用户行为及群体关系,Facebook能够开发更具个性化的用户体验和独原创 2013-12-24 16:31:54 · 2234 阅读 · 0 评论