Hdoop小结和worldcount梳理

Hdoop

  • 4V特征

Volume 大数据量
Velocity(速度快)
Variety(多样化)
Value(价值密度低)

  • Hadoop三大发行版本

Apache Clodera Hortonworks

  • Hadoop组成

在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。
在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。

HDFS:高可靠、高吞吐量的分布式文件系统

YARN:作业调度与集群资源管理的框架

MapReduce:分布式离线并行计算框架

Common:支持其他模块运行的工具模块(Configuration、序列化机制)

  • 副本策略

    • 如果client本身就是一个datanode节点,如果不是随机选择一个datanode1
    • 在不同机架上选择一个datanode,存放第一个副本
    • 在datanode1相同机架上选择一个datanode来存放第三个副本
  • 在给定的文件中,统计输出每一个单词出现的次数
  #### need jar : log4j-core ,junit, hadoop-common ,hadoop-client,hadoop-hdfs 

  * WCdriver类

  psvm 

  //创建Job实例来提供默认配置

​        Configuration con = new Configuration();

​        Job job = Job.getInstance(con);

   	//让job来识别mapper和reducer两个业务

​	job.setMapperClass(WCMapper.class);

​	job.setReducerClass(WCReducer.class);

​      //设置map阶段的key和value输出

​	job.setMapOutputKeyClass(Text.class);

​	job.setMapOutputValueClass(IntWritable.class);

​	//最终最终输出的key和value的类型

​	job.setOutputKeyClass(Text.class);

​	job.setOutputValueClass(Intwritable.class);

​	//设置输入和输出路径

​	FileInputFormat.setInputPaths(job,new Path("/local"));

​	FileOutputFormat.setOutputPath(job,new Path("/output"));

​	//提交

​	job.waitForConpletion(true);

* * WCMapper

  public class WCMapper extends Mapper<LonWritable,Text,Text,InWritable>{

  重写 方法

  String split[] = value.toString().split("");

  for(String s: split){

  Text text = new Text();

  text.set(s);

  InWritable intWritable = new IntWritable(1);

  context.write(text.intWritable);

  }

  * public class WCReducer extends Reducer<Text,IntWritable,Text,InWritable>{

    重写 方法

    InWritable res = new IntWritable();

    int sum = 0;

    for(IntWritable one: values){

    sum+=one.get();

    }

    res.set(sum);

    context.write(key,res);

    }

具体实现:先上传要查询的文件到hdfs

将代码打成jar包 (注意driver里的输入和输出路径)上传到本地

启动hadoop ---------------hadoop jar jar包路径名字 driver路径 输入在hdfs的路径 即将要输出的路径名称(不存在的)

hdoop工作流程:

https://blog.youkuaiyun.com/csdnliuxin123524/article/details/80191199

有多少个文件就至少有多少个map

资源下载链接为: https://pan.quark.cn/s/22ca96b7bd39 在当今的软件开发领域,自动化构建与发布是提升开发效率项目质量的关键环节。Jenkins Pipeline作为一种强大的自动化工具,能够有效助力Java项目的快速构建、测试及部署。本文将详细介绍如何利用Jenkins Pipeline实现Java项目的自动化构建与发布。 Jenkins Pipeline简介 Jenkins Pipeline是运行在Jenkins上的一套工作流框架,它将原本分散在单个或多个节点上独立运行的任务串联起来,实现复杂流程的编排与可视化。它是Jenkins 2.X的核心特性之一,推动了Jenkins从持续集成(CI)向持续交付(CD)及DevOps的转变。 创建Pipeline项目 要使用Jenkins Pipeline自动化构建发布Java项目,首先需要创建Pipeline项目。具体步骤如下: 登录Jenkins,点击“新建项”,选择“Pipeline”。 输入项目名称描述,点击“确定”。 在Pipeline脚本中定义项目字典、发版脚本预发布脚本。 编写Pipeline脚本 Pipeline脚本是Jenkins Pipeline的核心,用于定义自动化构建发布的流程。以下是一个简单的Pipeline脚本示例: 在上述脚本中,定义了四个阶段:Checkout、Build、Push packageDeploy/Rollback。每个阶段都可以根据实际需求进行配置调整。 通过Jenkins Pipeline自动化构建发布Java项目,可以显著提升开发效率项目质量。借助Pipeline,我们能够轻松实现自动化构建、测试部署,从而提高项目的整体质量可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值