c++编程实现简单mapreduce程序

最新推荐文章于 2020-10-22 16:31:23 发布

原创

最新推荐文章于 2020-10-22 16:31:23 发布 · 3.8k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#c++ #mapreduce #hadoop-streaming

hadoop提供了java版本的mapreduce编程API，我们需要自定义编写mapper和reducer，分别继承Mapper和Reducer，然后重写map和reduce方法。同时需要在main方法中构建job，然后指定mapper和reducer，最后提交任务。同时也支持c++编写mapreduce。hadoop有几种方式用c++实现mapreduce，这里介绍使用hadoop-streaming-xxx.jar的方式来运行c++实现的mapreduce程序。

我们需要定义两个c++文件，分别编写mapper和reducer执行的任务。这里以词频统计为例，在mapper中，我们需要实现的是<word,1>这样的输出。在reducer中，我们需要通过统计的方式来计算word出现的总次数，输出<word,sum>。

下面给出源代码：

mapper.cpp

#include <iostream>
#include <string>
using namespace std;
int main(){
  string word;
  while(cin>>word){
    cout<<word<<"\t"<<"1"<<endl;
  }
  return 0;
}

reducer.cpp

#include <iostream>
#include <string>
#include <map>
using namespace std;
int

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

luffy5459

关注关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

基于C++的MapReduce实现（HCE）

hit_090420216的专栏

04-02

7086

主要研究怎么使用MapReduce实现C++的调用

编写MapReduce程序，统计每个买家收藏商品数量，实现统计排序功能

weixin_45683301的博客

06-28

3139

实验材料及说明在Ubuntu系统的/学号（每个人用自己的学号）/salesInfo目录下，有买家的购买记录文件Sales，该文件记录了买家的id，购买商品的id以及购买日期，文件为名为Sales。Sales包含：买家ID、商品ID、购买日期三个字段，数据以“\t”进行分割，样本数据及格式如下：买家ID 商品ID 购买日期 1000181 1000481 2021-04-04 16:54:31 2000001 1001597 2021-04-07 15:07:52 2000001

参与评论您还未登录，请先登录后发表或查看评论

Hadoop c++开发

caihong0571的专栏

11-19

9901

假设你有上百G的数据，你要统计出这些数据中，含有某些你感兴趣的内容的数据的有多少条，你会怎么做？在硬件条件允许的情况下，用hadoop并行计算是一个不错的选择。为了使本文得以清晰地说明，我们不妨假设如下的情况：我们有100G的数据，分别保存在5个文件中，它们位于 /data/ 目录下。这5个数据文件的内容均为相同的格式，即，文件的内容大致如下： ABCDSDFKJDKF kk

运行 C++ 版本的 mapreduce （Hadoop streaming）

生活不止眼前的枸杞，还有蜂蜜和咖啡！

03-22

1139

mapper.cpp文件：#include<string> #include<iostream> using namespace std; int main() { string line; while(cin>>line) { cout<<line<<"\t"<<1<&amp

使用C++执行mapreduce任务

weixin_45477892的博客

10-22

623

1.hadoop-streaming-xxx.jar 虽然hadoop是用java开发的(一般程序也要用java写)，但hadoop提供了一个工具：hadoop-streaming，主要是帮助用户创建/运行一类特殊的map/reduce作业。使得任何语言编写的map/reduce作业都能在上面运行 2.注意：写好的map/reduce程序也要上传到hadoop根目录下（不要传到文件系统上，因为原有的java代码也是放在hadoop中，而文件系统只是存放对应的文件） ...

【hadoop2.6.0】用C++ 编写mapreduce

weixin_34151004的博客

01-07

205

hadoop通过hadoop streaming 来实现用非Java语言写的mapreduce代码。对于一个一点Java都不会的我来说，这真是个天大的好消息。官网上hadoop streaming的介绍在：http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/Hado...

C++与MPI实现简易MapReduce应用教程

2. C++编程语言 C++是一种广泛使用的编程语言，尤其在系统编程、游戏开发、高性能应用开发等领域具有优势。C++支持面向对象、泛型、过程式等编程范式，它拥有强大的性能优化能力，通过直接与硬件通信能够实现高效的...

基于C++的MapReduce分布式计算框架设计源码

最新发布

02-14

本文档详细介绍了基于C++语言实现的MapReduce分布式计算框架的设计源码。该框架旨在为处理大规模数据集提供高效的分布式计算能力。整个项目由52个文件组成，其中包括核心的C/C++源文件和头文件，这些文件共同构成了...

windows下编写mapreduce程序

08-05

在Windows环境下编写MapReduce程序可能看似复杂，但借助一些工具和理解Hadoop MapReduce的基本原理，这个过程可以变得相对简单。以下是对标题“Windows下编写MapReduce程序”及相关标签“源码”和“工具”的详细解释...

simple-mapreduce：使用C ++和MPI构建的MapReduce应用

02-28

简单的MapReduce 这是构建简单的MapReduce [项目 ++]应用程式下使用MPI [ ]。免责声明在此项目中构建的Mapreduce可能没有正确的结构。这是基于论文[ ]构建的，但是某些部分可能会出错。此外，此功能已通过带有文字计数任务的多个文本进行了测试，但尚未经过全面测试，因此可能存在错误。目录 1项目结构目录的结构如下。 . ├─ app/ # put main task of mapreduce | ├─ CMakeLists.txt # cmake file for main task | ├─ sourcelist.cmake # put all source file used in the mapreduce task | ├─ movielens/ # example a

Google 开源 C/C++ 版 MapReduce 框架

zdy0_2004的专栏

02-24

878

Google 开源 C/C++ 版 MapReduce 框架 http://www.oschina.net/news/59911/google-opensource-cpp-mapreduce 据GigaOM消息，Google上周宣布，将自己用C++开发的MapReduce框架MapReduce for C（MR4C）开源，此举可给Hadoop社区带来福音，因为这样用户就可

transform、accumulate —— C++ 下的 MapReduce

09-21

1548

accumulate：Map，逐元素分别单独处理；注：for_each：不改变区间元素的内容，所以更多的是输出打印等功能； accumulate：Reduce，整体化归为一个单独的数值；两个函数均位于<algorithm>头文件中。

C++ 11: simple map reduce functions

Joseph's blog

09-02

1731

Try to simulate common lisp's map/reduce functions in C++11. #include #include #include #include #include #include template T reduce(std::function afun, std::list& somenums, T init = 0) { T

借助hadoop streaming，使用C++编写MapReduce程序

huangmeng1214的专栏

09-16

1919

#g++ Mapper.cpp -o Mapper #g++ Reducer.cpp -o Reducer hadoop streaming是一个hadoop的工具，可以使用户使用其他语言编写mapreduce程序，用户只需要提供Mapper和Reducer，就可以执行Map/Reduce作业相关资料请看hadoop streaming官方文档 1、下面以实现WordCount为例

Google开源C/C++版MapReduce框架

duxingxia356的专栏

02-26

851

据 GigaOM 消息，Google 上周宣布，将自己用 C++ 开发的 MapReduce 框架 MapReduce for C（MR4C）开源，此举可给 Hadoop 社区带来福音，因为这样用户就可以在自己的 Hadoop 环境中运行原生的 C 及 C++ 代码了。 Hadoop 是许多大数据应用的基础，它是由 Apache 基金会所开发的分布式系统基础架构，主要由分

HCE：提升资源利用率的MapReduce框架

黑子实验室

08-05

947

Hadoop系统提供了MapReduce计算框架的开源实现，像Yahoo!、Facebook、淘宝、中移动、百度、腾讯等公司都在借助Hadoop进行海量数据处理。Hadoop系统性能不仅取决于任务调度器的分配策略，还受到分配后实际任务执行效率的影响

C++版的mapreduce程序运行在hadoop上（1）

bug在左，生活在右

08-20

1808

因部门内一部分写c++而不会java的人想要将他们的程序改写成mapreduce程序运行在hadoop上，故作了几个简单的例子作说明。本篇是hadoop streaming运行c++。

【CC】Hadoop2.7.1 mapreduce in c++ 词频统计

common reader

04-12

1280

在ubuntu上部署Hadoop 单机部署：http://www.powerxing.com/install-hadoop/ 集群部署：http://www.powerxing.com/install-hadoop-cluster/ 例子参考: http://www.cnblogs.com/dplearning/p/4207931.html 使用 hadoop streaming 实...