
hadoop
爱吃龙虾的饼
这个作者很懒,什么都没留下…
展开
-
hadoop集群搭建
一.安装虚拟机环境Vmware12中文官方版 链接:https://pan.baidu.com/s/1IGKVfaOtcFMFXNLHUQp41w 提取码:6rep激活秘钥:MA491-6NL5Q-AZAM0-ZH0N2-AAJ5A这个安装就十分的简单了,只需要不断点击下一步,直到安装完成就OK了;二.虚拟机的安装(Centos7)这个步骤我分享一个详细安装地址:https://www.cnblogs.com/tony-hyn/p/9677902.html三.搭建集群(1)配置服务器(转载 2020-06-14 19:51:35 · 317 阅读 · 0 评论 -
数据仓库-hive总结
什么是hive首先要学习Hive,第一步是了解Hive,Hive是基于Hadoop的一个数据仓库,可以将结构化的数据文件映射为一张表,并提供类sql查询功能,Hive底层将sql语句转化为mapreduce任务运行。相对于用java代码编写mapreduce来说,Hive的优势明显:快速开发,人员成本低,可扩展性(自由扩展集群规模),延展性(支持自定义函数)。Hive的构架:Hiv...转载 2019-04-17 18:04:19 · 638 阅读 · 0 评论 -
Hadoop-HA(高可用)架构原理
最近分享过一次关于Hadoop技术主题的演讲,由于接触时间不长,很多技术细节认识不够,也没讲清楚,作为一个技术人员,本着追根溯源的精神,还是有必要吃透,也为自己的工作沉淀一些经验总结。网上关于Hadoop HA的资料多集中于怎么搭建HA,对于HA为什么要这么做描述甚少,所以本文对于HA是如何搭建的暂不介绍,主要是介绍HA是怎么运作,QJM又是怎么发挥功效的。一、Hadoop 系统架构1.1...转载 2019-04-16 16:10:36 · 5454 阅读 · 0 评论 -
Hadoop-MapReduce案例-求共同好友
原始文件如下:(冒号前是人名,冒号后是好友的名字)A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,I,J要求:求出哪些人两两之间有共...转载 2019-04-12 14:53:27 · 438 阅读 · 0 评论 -
Hadoop-mapreduce案例-统计手机上行流量,下行流量,总流量
日志格式如下图,需要的字段,第二列:手机号(用户),倒数第三列:上行流量,倒数第二列:下行流行思路:将上行流量,下行流量,总流量封装成一个对象bean,map中context.write(手机号,bean),reduce中对每个用户的流量进行统计。MapReduce中传输自定义数据类型Bean:(1) 要在Hadoop的各个节点之间传输,就必须实现其序列化机制,实现 Writa...转载 2019-04-12 15:23:23 · 3115 阅读 · 0 评论 -
Hadoop-mapreduce案例-两表join
订单数据表t_order: id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3...转载 2019-04-12 15:39:37 · 285 阅读 · 0 评论 -
Hadoop-mapreduce案例-map端join
订单数据orders.txt1001 pd001 3001002 pd002 201003 pd003 401004 pd002 50商品数据pdts.txtpd001 applepd002 xiaomipd003 cuizi倾斜问题:在电商平台中,买小米手机和买苹果手机的订单数量很多,买锤子手机的订单...转载 2019-04-12 15:58:11 · 306 阅读 · 0 评论 -
Hadoop-MapReduce原理过程
MapReduce的定义Hadoop 中的 MapReduce 是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集mapreduce的优点1、MapReduce 易于编程 。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC 机器运行。也就是说你写一个分布式程序,...转载 2019-04-10 16:59:07 · 291 阅读 · 0 评论 -
Hadoop-HDFS读写数据
HDFS中的block、packet、chunkblock :这个大家应该知道,文件上传前需要分块,这个块就是block,一般为128MB,当然你可以去改,不顾不推荐。因为块太小:寻址时间占比过高。块太大:Map任务数太少,作业执行速度变慢。它是最大的一个单位。packet :packet是第二大的单位,它是client端向DataNode,或DataNode的PipLine之间传数据的...转载 2019-04-10 19:04:04 · 236 阅读 · 0 评论 -
Hadoop-YARN的资源调度
yarn概述YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程 框架的不足,提高集群环境下的资源利用率,这些资源包括内存,磁盘,网络,IO等。Hadoop2.X 版本...转载 2019-04-10 19:38:36 · 2544 阅读 · 0 评论 -
Hadoop-SecondNameNode的工作机制
SecondNameNode的由来NameNode主要是用来保存HDFS的元数据信息,比如命名空间信息,块信息等。当它运行的时候,这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上。上面的这张图片展示了NameNode怎么把元数据保存到磁盘上的。这里有两个不同的文件:fsimage:它是在NameNode启动时对整个文件系统的快照edit logs:它是在NameNod...转载 2019-04-10 20:10:01 · 564 阅读 · 0 评论 -
Hadoop-MapReduce-运营商原始日志增强(自定义OutputFormat)
1.需求:现有一些原始日志需要做增强解析处理,流程:1、从原始日志文件中读取数据(日志文件:https://pan.baidu.com/s/12hbDvP7jMu9yE-oLZXvM_g)2、根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志3、如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录2.需求分析:程序...转载 2019-04-15 18:22:31 · 167 阅读 · 0 评论 -
Hadoop-mapreduce案例-GroupingComparator应用-查询订单最大金额
订单数据如下(订单id, 商品id, 成交金额):Order_0000001,Pdt_01,222.8Order_0000001,Pdt_05,25.8Order_0000002,Pdt_05,325.8Order_0000002,Pdt_03,522.8Order_0000002,Pdt_04,122.4Order_0000003,Pdt_01,222.8Order_...转载 2019-04-15 17:00:16 · 385 阅读 · 0 评论