
hadoop
我在路上....
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce读取Mysql数据
MapReduce编程流程 编写Map类实现Mapper接口 编写Reduce类,实现Reducer接口 编写Driver 实例化Job 设置启动类 设置Map,Reduce类 设置Map,Reduce的输出输入KV类型 启动job 自定义序列化流程 实现Writable接口 覆写write和readFields方法,读写顺序保持对应 package com.lrj.mr; imp...原创 2020-02-02 17:26:17 · 757 阅读 · 0 评论 -
Hive - 基础4 大综合练习
Hive - 基础4 大综合练习 1.需求 需求:每个区域的受欢迎的产品的Top N 2.准备数据 -- Mysql数据库 -- 城市表 CREATE TABLE `city_info` ( `city_id` int(11) DEFAULT NULL, `city_name` varchar(255) DEFAULT NULL, `area` varchar(255) DEFAUL...原创 2019-07-27 03:28:06 · 212 阅读 · 0 评论 -
Hadoop - block,replication,architecture
Hadoop - block,replication,architecture 1.Block hadoop2.0以上,一个block块的大小为128m,hadoop2.0以下为64m block块为128m,并不意味着存储就是128m,打个比方,一瓶水500ml,用150ml的杯子来分,那么至少需要4个杯子,3*150ml=450ml,剩下的一个杯子只有50ml了,这个150ml就相当于一个b...原创 2019-07-07 13:59:25 · 728 阅读 · 0 评论 -
Hadoop -Yarn Scheduler调度器
Hadoop -Yarn Scheduler调度器 理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供...转载 2019-07-16 01:02:10 · 231 阅读 · 0 评论 -
Hadoop - MapReduce on Yarn
Hadoop - MapReduce on Yarn 1.word count # 启动hdfs和yarn start-dfs.sh start-yarn.sh # 提交任务 hadoop jar /hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount /logs /example...原创 2019-07-16 00:55:21 · 178 阅读 · 0 评论 -
Hadoop基础 2-mapreduce&yarn
Hadoop基础 2 hadoop整体架构(主从架构) NameNode 名称节点 老大 DataNode 数据节点 Secondary NameNode 名称节点 老二 Hadoop最好使用hostname进行节点配置 对于虚拟机,配置规则: 内网 ip hostname 对于云主机,配置规则: 内网ip hostname 但是云主机需要添加公网访问权限,设置安全组 CloudMan...原创 2019-07-06 19:15:57 · 156 阅读 · 0 评论 -
Hadoop - mapreduce作业流程
Hadoop - mapreduce作业流程 客户端提交作业任务给ResourceManaher的ApplicationsManager ApplicationsManager收到请求,与某个NodeManager进行RPC通信,要求NodeManager启动一个Container容器来运行我们作业的ApplicationMaster ApplicationsMaster启动完成后,想Appli...原创 2019-07-13 19:19:30 · 189 阅读 · 0 评论 -
Hadoop - container on yarn
Hadoop - container on yarn hadoop 2.x版本的mapreduce任务都提交到yarn框架执行 container 定义:将一定的内存和CPU,如4G内存,1个vcore抽象成一个container 任务都是运行在container里 vcore:虚拟核数,一般是机器实际core的2倍 yarn参数配置细节 假定机器配置为64G,16core linu...原创 2019-07-13 18:28:00 · 349 阅读 · 0 评论 -
Hadoop 读写流程和常用命令
Hadoop 读写流程和常用命令 1.读流程 client向分布式文件系统DistributionFileSystem发送读请求 分布式文件系统与NameNode进行Rpc通信 NameNode对文件是否存在,用户是否有权限等进行校验,校验如果成功,则向分布式系统返回一个FsDataInputStream对象(包含了文件由哪些块组成,block分布在哪些节点等等信息) client...原创 2019-07-08 17:58:53 · 448 阅读 · 0 评论 -
HDFS 块损坏和恢复
HDFS 块损坏和恢复 # 先建个文件 echo 'The NameNode and DataNode are pieces of software designed to run on commodity machines. These machines typically run a GNU/Linux operating system (OS). HDFS is built using th...转载 2019-07-07 16:40:01 · 551 阅读 · 0 评论 -
Hadoop 伪分布式安装
Hadoop 伪分布式安装 #下载tar包http://archive.cloudera.com/cdh5/cdh/5/ wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz # 新建一个专门管理hadoop的用户 useradd hadoop su - root # 安装java,需要安装java在/...原创 2019-07-01 19:58:38 · 151 阅读 · 0 评论