1. Hive
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
2. Nutch
参考:http://blog.youkuaiyun.com/javaman_chen/article/details/7180076
Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
3. Cascading
Cascading is an application framework for Java developers to quickly and easily develop robust Data Analytics and Data Management applications on Apache Hadoop.
4.TeraByte Sort on Apache Hadoop
现在最快的是微软,http://cloud.youkuaiyun.com/a/20120322/313445.htmlhttp://cloud.youkuaiyun.com/a/20120530/2806125.html
5.Using Pig and Wukong to Explore Billion-edge Network Graphs