
海量数据处理
文章平均质量分 78
stefaniezhao
现就职于 IBM 中国软件开发中心 新技术研发中心 Web 2.0 小组,主要关注点在数据处理、信息搜索、数据发现,推荐算法和推荐系统设计等。
展开
-
Quick Install Hadoop on Windows
For mahout, today I install Hadoop in my PC, here are the installation guide, hope useful :)Required Software1. Java 1.6.x2. Cygwin: It is a is a Linux-like environment for Windows, and is Required for shell support in addition to the required software abo原创 2010-09-15 17:42:00 · 1176 阅读 · 1 评论 -
分布式文件系统 - GFS
GFS的四个特点首先,组件失效不再被认为是意外 ,而是被看做正常的现象。这个文件系统包括几百甚至几千台普通廉价部件构成的存储机器,又被相应数量的客户机访问。组件的数量和质量几乎保证,在任何给定时间,某些组件无法工作,而某些组件无法从他们的目前的失效状态恢复。我们发现过,应用程序bug造成的问题,操作系统bug造成的问题,人为原因造成的问题,甚至硬盘、内存、连接器、网络以及电源失效造成的问题。所以,常量监视器,错误侦测,容错以及自动恢复系统必须集成在系统中。其次,按照传统的标准来看,我们的文件非常巨大翻译 2011-01-18 14:10:00 · 2114 阅读 · 1 评论 -
深入学习Hadoop 2 - HDFS的读写
一、文件的打开1.1、客户端HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为:public FSDataInputStream open(Path f, int bufferSize) throws IOException { return new DFSClient.DFSDataInputStream( dfs.open(getPathName(f), bufferSize, verify转载 2011-01-18 16:06:00 · 1676 阅读 · 0 评论 -
深入学习Hadoop 1- HDFS的基本概念
HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。1.2、元数据节点(Namenode)和数据节点(datanode)元数据节点用来管理文件系统的命名空间 其将所有的文件和文件夹的元数据保存在一个文件系统树中。 这些转载 2011-01-18 15:47:00 · 1829 阅读 · 0 评论