《Hadoop The Definitive Guide》ch14 Case Studies

本文介绍了Hadoop生态系统中的几个关键工具,包括Hive、Nutch、Cascading等,这些工具分别用于数据仓库处理、网络搜索及爬虫、简化Hadoop应用程序开发等方面。此外还提到了使用Pig和Wukong进行大规模网络图探索的应用案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. Hive

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

2. Nutch

参考:http://blog.youkuaiyun.com/javaman_chen/article/details/7180076

Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。

3. Cascading

Cascading is an application framework for Java developers to quickly and easily develop robust Data Analytics and Data Management applications on Apache Hadoop.

4.TeraByte Sort on Apache Hadoop

现在最快的是微软,http://cloud.youkuaiyun.com/a/20120322/313445.htmlhttp://cloud.youkuaiyun.com/a/20120530/2806125.html

5.Using Pig and Wukong to Explore Billion-edge Network Graphs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值