Hadoop
分享大数据学习相关内容,以及在工作中遇到的大数据问题
程序员X小鹿
公众号【X小鹿AI工具库】,前互联网大厂程序员/AIGC爱好者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop(十二)—— Hadoop压缩
文章目录1. Hadoop压缩概述2. 压缩方式2.1 Bzip2压缩2.2 Gzip压缩2.3 Lzo压缩2.4 Snappy压缩3. MR支持的压缩编码4. 压缩率与压缩速度对比5. 压缩参数配置1. Hadoop压缩概述数据压缩对于提高磁盘空间效率、最小化磁盘I/O和网络传输非常有帮助。MapReduce的一种优化策略:通过压缩编码对Mapper或者Reducer的输出进行压缩...原创 2020-03-09 14:40:28 · 190 阅读 · 0 评论 -
Hadoop(十一)—— Hadoop企业优化
文章目录1. HDFS小文件优化2. MapReduce优化2.1 MapReduce程序效率瓶颈2.2 MapReduce优化方法2.2.1 数据输入2.2.2 Map阶段2.2.3 Reduce阶段2.2.4 IO传输2.2.5 数据倾斜2.2.6 配置文件中常用的调优参数1. HDFS小文件优化问题:HDFS上每个文件都要在NameNode上建立一个索引,这个索引的大小约为150byt...原创 2020-03-08 21:09:40 · 304 阅读 · 0 评论 -
Hadoop(十)—— Yarn
文章目录1. Yarn概述2. Yarn工作机制2.1 名词解释2.2 Yarn工作机制简化版2.3 Yarn工作机制复杂版3. 作业提交过程4. 资源调度器4.1 先进先出调度器(FIFO)4.2 容量调度器(Capacity Scheduler)4.3 公平调度器(Fair Scheduler)5. 任务的推测执行1. Yarn概述在Hadoop1.x时代,Hadoop中的MapRed...原创 2020-03-08 17:45:15 · 289 阅读 · 0 评论 -
Hadoop(九)—— MapReduce
文章目录1. MapReduce介绍1.1 MapReduce定义1.2 MapReduce优缺点1.2.1 优点1.2.2 缺点1.3 MapReduce核心思想1.4 MapReduce进程1.5 MapReduce编程规范2. MapReduce框架原理2.1 MapReduce工作流程2.2 MapTask工作机制2.2.1 并行度决定机制2.2.2 MapTask工作机制2.3 Shuf...原创 2020-03-08 00:12:30 · 552 阅读 · 0 评论 -
Hadoop(八)—— 通过Java API操作HDFS
文章目录1. 获取文件系统2. 上传3. 下载4. 创建目录5. 删除文件6. 重命名7. 查看【文件】名称、权限等8. 判断是否是个文件还是目录,然后打印9. IO流方式上传10. IO读取HDFS到控制台11. IO读取块1. 获取文件系统/*** 获取文件系统*/@Testpublic void intiHDFS() throws IOException {//F2 可以快速的...原创 2020-03-05 22:19:11 · 477 阅读 · 0 评论 -
Hadoop(七)—— HDFS之其他功能
文章目录1. 集群间数据拷贝2. Hadoop归档3. 快照4. 回收站1. 集群间数据拷贝1)scp实现两个远程主机之间的文件复制# 推 pushscp -r hello.txt root@bigdata111:/user/during/hello.txt # 拉 pullscp -r root@bigdata112:/user/during/hello.txt hello.t...原创 2020-03-05 22:06:50 · 211 阅读 · 0 评论 -
Hadoop(六)—— HDFS之DataNode
文章目录1. DataNode工作机制2. 数据的完整性3. 掉线时限参数设置4. DataNode的目录结构5. DataNode多目录配置1. DataNode工作机制DataNode启动后向NameNode注册。注册成功。DataNode周期性(1小时)的向NameNode上报所有的块信息。心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令,如复制块数...原创 2020-03-05 21:16:38 · 516 阅读 · 0 评论 -
Hadoop(五)—— HDFS之NameNode、SecondaryNameNode
文章目录1. NamaNode和Secondary NameNode工作机制2. 镜像文件和编辑日志文件3. 滚动编辑日志4. NameNode版本号5. Secondary NameNode目录结构5.1 目录结构5.2 还原元数据的方法6. 集群安全模式操作7. NameNode多目录配置1. NamaNode和Secondary NameNode工作机制第一阶段:NameNode启动...原创 2020-03-05 16:29:03 · 574 阅读 · 0 评论 -
Hadoop(四)—— HDFS读写流程
1. HDFS介绍1.1 概念HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。1.2 组成HDFS集群包括,NameNode和DataNode以及Secondary NameNode。NameNode存储元数据。负责管理整个文...原创 2020-03-05 15:01:52 · 368 阅读 · 0 评论 -
Hadoop(三)—— Hadoop序列化
Hadoop序列化1 为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。2 什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协...原创 2020-03-04 22:08:31 · 287 阅读 · 0 评论 -
Hadoop(二)—— Hadoop命令
Hadoop命令任务命令启动/停止历史服务器mr-jobhistory-daemon.sh start | stop historyserver启动/停止总资源管理器yarn-daemon.sh start | stop resourcemanager启动/停止节点管理器yarn-daemon.sh start | stop nodemanager启动...原创 2020-03-04 22:05:18 · 325 阅读 · 0 评论 -
Hadoop(一)—— Hadoop入门
Hadoop介绍思想之源Google是Hadoop的思想之源(Google在大数据方面的三篇论文)GFS ====> HDFS(存储)Map-Reduce ====> MR(计算)BigTable ====> HBase(大表)Hadoop的优势高可靠性因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对...原创 2020-03-04 22:02:10 · 346 阅读 · 0 评论
分享