1, 什么是hadoop?
Apache 开源的软件,主要用于可靠,可扩展的分布式计算。
可靠 -- 数据分片后被冗余的分配到多个节点,一个节点出现问题,不会影响到整个程序的执行。
可扩展 -- 很好的水平扩展能力。
分布式计算 -- 这是通过mapReduce获得的,map把数据映射到集群中的服务器,reduce用于合并结果。
2, 很多相关的项目,其中重要的包括:
Hbase -- 一个可扩展的,分布式的,列数据库。
Hive -- 一个数据仓库。
Pig -- 一个高层数据流语言和平行计算的框架
还有很多其它项目,请参考官网: http://hadoop.apache.org/.