剩余章节包括
构建Hadoop集群;
管理Hadoop;
Pig简介
Hive简介:
Hive是一个都见在Hadoop上的数据仓库框架,它把SQL查询转换成Hadoop集群上运行的MapReduce作业,实现对HDFS上的大规模数据进行查询。
Hive把数据组织成表,对HDFS上的数据赋予结构,元数据(如表模式)存储在名为metastore的数据库中。
Hbase+ZooKeeper;
最后是示例分析(在Last.fm的应用,和Hive在Facebook中的应用,Nutch搜索引擎,Rackspace的日志处理,关于Cascading,使用Pig和Wukong来探索10亿)
心情好再看~