
hadoop
文章平均质量分 78
许中宝
这个作者很懒,什么都没留下…
展开
-
大数据入门--hadoop(四)--MR案例
案例一:ReduceJoin场景:假设我们现在有两张表数据:商品表和订单表订单表:订单编号 商品ID 购买数量001 01 2 002 01 1003 02 1004 03 2005 04 1商品表:商品ID 商品名称 商品单价01 华为Mate40 599902 华为笔记本 699903 小米笔记本 399904 苹果笔记本 1099905 联想笔记本 7999现在要求我们对两个表进行left join操作解析思路:逆向思考–>Reduce阶段需要让相同的商品原创 2021-06-26 13:02:21 · 695 阅读 · 0 评论 -
大数据入门--hadoop(三)--MR编程
MR相关内容InputFormat(切片和为maptask读取数据)分区(与Reducer的执行数量,自定义分区)排序合并Combiner(快速排序后、第一次归并后、不能影响执行结果,输入kv与输出kv类型一致)分组(第二次归并后,Reducer输入前,自定义分组)切片(InputFormat)类型切片方法getSplitskv方法createRecordReader用途说明TextInputFormatFIF的切片方法LineRecordReader按照块大原创 2021-06-20 19:49:31 · 628 阅读 · 2 评论 -
大数据入门--hadoop(二)--window开发环境与编程入门
得到hadoop的window环境下的编译包配置windows下hadoop环境变量(注意HADOOP_HOME不要有空格、中文)验证环境配置是否成功hadoop version准备开发环境建立maven工程导入maven依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <vers原创 2021-06-19 18:04:28 · 166 阅读 · 2 评论 -
大数据入门--hadoop(一)--分布式集群搭建
准备工作vm建立虚拟机虚拟机配置IP、更改hostname、配置hosts、创建新用户,为新用户增加sudo权限,免密登录暂时参考:以后更新步骤。和我一起学Hadoop(一)hadoop组成hdfsnamenodedatanodesecondary namenodemapreduceapp mastercontaineryarnresource mangernode manager集群模式Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式原创 2021-06-14 13:10:47 · 557 阅读 · 0 评论 -
和我一起学Hadoop(二):Hadoop的源码构建
hadoop的源码构建原创 2017-01-09 19:57:18 · 821 阅读 · 0 评论 -
和我一起学Hadoop(四):java客户端操作HDFS
Hadoop java客户端原创 2017-01-14 15:53:40 · 3349 阅读 · 0 评论 -
和我一起学Hadoop(一):Linux的准备配置之hostname、静态IP配置、SSH免密登陆登陆
linux的网络配置 ssh免密登陆原创 2016-12-31 20:21:46 · 1080 阅读 · 0 评论 -
和我一起学Hadoop(三):Hadoop集群的最简化部署
hadoop的最简化配置原创 2017-01-10 13:06:26 · 958 阅读 · 0 评论 -
和我一起学Hadoop(五):MapReduce的单词统计,wordcount
mapred 单词统计原创 2017-01-16 15:25:26 · 4754 阅读 · 0 评论