MongoDB之Hadoop驱动介绍

最新推荐文章于 2024-05-09 09:48:10 发布

amuseme_lu

最新推荐文章于 2024-05-09 09:48:10 发布

阅读量1.3w

点赞数

CC 4.0 BY-SA版权

分类专栏：我的笔记 NoSQL 文章标签： mongodb hadoop mapreduce 分布式计算数据库代码分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/amuseme_lu/article/details/6584661

本文介绍了MongoDB的Hadoop驱动，推荐使用Hadoop 0.20.203或Cloudera CHD3，MongoDB版本1.8+，Java驱动2.5.3+。驱动提供了输入输出适配层和参数配置，但不支持多Sharding读取和数据split操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MongoDB之Hadoop驱动介绍

------------------------

1. 一些概念

Hadoop是一套Apache开源的分布式计算框架，其中包括了分布式文件系统DFS与分布式计算模型MapReduce，而MongoDB是一个面向文档的分布式数据库，它是NoSql的一种，而这里所要介绍的就是一个MongoDB的Hadoop驱动，这里就是把MongoDB作为MapReduce的输入源，充分利用MapReduce的优势来对MongoDB的数据进行处理与计算。

2. MongoDB的Hadoop驱动

目前这个版本的Hadoop驱动还是测试版本，还不能应用到实际的生产环境中去。
你可以从下面网址https://github.com/mongodb/mongo-hadoop下载到最新的驱动包，下面是它的一些依赖说明：

目前推荐用最新的Hadoop 0.20.203版本，或者是用Cloudera CHD3还做
MongoDB的版本最好是用1.8+
还有是MongoDB的java驱动必须是2.5.3+

它的一些特点：

提供了一个Hadoop的Input和Output适配层，读于对数据的读入与写出
提供了大部分参数的可配置化，这些参数都可有XML配置文件来进行配置，你可以在配置文件中定义要查询的字段，查询条件，排序策略等

目前还不支持的功能：

目前还不支持多Sharding的源数据读取

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。