
hadoop
文章平均质量分 91
xiwh
这个作者很懒,什么都没留下…
展开
-
hadoop HDFS详解(通过demo理解)
目录技能目标目录一.掌握HDFS文件系统的访问方式二.掌握HDFS的体系结构三.掌握HDFS文件的读写流程、副本摆放策略,认知HDFS数据负载均衡和机架感知。四.了解HDFS的序列化使用一.掌握HDFS文件系统的访问方式 org.apache.hadoop.fs.FileSystem是抽象的文件访问接口使用shell方式访问1.列出文件目录 hdfs dfs -ls /2.递归方式列出目录包括子目录hdfs dfs -ls -R /3.在HD...原创 2020-05-26 18:19:12 · 510 阅读 · 0 评论 -
hadoop (MapReduce流程)
MapReduce 流程图 一.任务提交启动一些检查(待处理的文件和存放处理后的文件是否存在) 经过inputFormat(inputformat中产生文件的切片和输出k,v对) 根据数据来切片(切片的规则 剩余的部分 > 切片的大小 * 1.1),map任务的切分根据数据量的大小。(默认一个块128M), mapper执行任务的数量通常由输...原创 2020-04-19 11:08:22 · 315 阅读 · 0 评论 -
hadoop伪分布式模式安装
伪分布式模式安装hadoop集群一、创建hadoop用户二、解压Hadoop目录文件三、配置Hadoop四、配置、格式化、启动HDFS五、配置、启动YARN六、运行MapReduce Job七、停止Hadoop八、开启历史服务九、开启日志聚集一.创建hadoop用户 1.创建hadoop用户 u...转载 2020-01-17 16:50:10 · 405 阅读 · 0 评论 -
hadoop完全分布式模式安装
完全分部式是真正利用多台Linux主机来进行部署Hadoop,对Linux机器集群进行规划,使得Hadoop各个模块分别部署在不同的多台机器上。一.环境准备二.服务器功能规划三.在第一台机器上安装新的Hadoop四.设置SSH无密码登录一.环境准备1、 克隆虚拟机 Vmware左侧选中要克隆的机器,这里对原有的address-01机器进行克隆,...原创 2020-01-19 15:53:40 · 233 阅读 · 0 评论 -
hadoop IO操作
目录 io操作中的数据检查 数据的压缩 数据IO中的序列化操作 针对mapreduce的文件类 一.io操作中的数据检查 hadoop采用CRC-32(Cyclic Redundancy check ---循环冗余校验,其中的32指生成的校验和是32位的)的方式检验数据完整性,这是一种非常常...原创 2020-01-11 18:32:53 · 260 阅读 · 0 评论 -
mapReduce程序性能调优和工作流程
目录(主要将书中的截图便于自己查看) 系统参数的配置 性能调优 mapreduce工作流程 Hadoop API功能模块定义。 性能调优 1)输入的文件尽量采用大文件,避免使用小文件,因为一个文件就会对应一个map任务,文件太多就会生成许多小文件,影响mapre...原创 2020-01-10 18:28:37 · 302 阅读 · 0 评论 -
hadoop简介
目录 一.什么是Hadoop 二.Hadoop 项目及其结构 三.hadoop的体系结构 四.Hadoop与分布式开发 五.Hadoop 计算模型--mapReduce 六.Hadoop 的数据管理 七.小结 一.什么是Hadoop 1.1 Hadoop概述...原创 2020-01-06 14:40:01 · 1086 阅读 · 0 评论