hadoop知识笔记
文章平均质量分 74
最简单的Hadoop入门教程
苍老流年
对未来的不确定与焦虑保持独立的判断与认知
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
1. hadoop 3.x 完全分布式环境搭建
slaves 文件 配置slave节点core-site.xml mapred-site.xml yarn-site.xmlhadoop-env.sh hdfs-site.xml 副本数 replication namenode.name datanode.datacore-site.xml hadoop.tmp.d...原创 2018-05-29 16:17:20 · 971 阅读 · 2 评论 -
2. hadoop 3.x HDFS HA高可用集群(手工切换)搭建
实验环境namenode1: 192.168.103.4namenode2: 192.168.103.8datanode1:192.168.103.15datanode2: 192.168.103.5 datanode3: 192.168.103.3操作系统: ubuntu-16.04-x64hadoop版本: apache-hadoop-2.6.5jdk版本:1.8安装步...原创 2018-06-01 13:52:11 · 2043 阅读 · 3 评论 -
3. hadoop 3.x HDFS HA高可用集群(自动切换)搭建
在namenode2上生成公钥后,并将namenode2的公钥拷贝到namenode1, datanode1, datanode2, datanode3节点上。集群在启动的过程中需要ssh远程登录到别的主机上,为了避免每次输入对方主机的密码,我们需要对namenode1和namenode2配置免密码登录。将namenode1的公钥拷贝到namenode2, datanode1, datanode2, datanode3节点上。此时namenode1和namenode2同时处于standby状态。原创 2018-06-02 11:40:53 · 4781 阅读 · 2 评论 -
4. HDFS Java API使用
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...原创 2018-06-10 14:36:16 · 178 阅读 · 0 评论 -
5. HDFS 回收站
指文件在回收站的暂存时间,文件被删除后实际上是被移动到回收站暂存目录下,而不是马上删除。通过命令的输出结果我们可以看到/test/a.txt文件实际被move到/root/.Trash/Current目录下了。hadoop 的HDFS中也提供了回收站(trash)的概念,使得数据被误删以后,还可以通过回收站找回来。我们以test目录为例,下面有一个名为a.txt文件,我们对它执行删除操作。如果刚才的操作是一时不小心,那么通过mv命令可以将文件还原回去。再次被验证文件被转移到回收站暂存目录下了。原创 2018-05-31 10:19:50 · 1163 阅读 · 0 评论 -
6. hadoop HDFS机架感知
一个hadoop分布式集群会有很多的服务器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,机架内的服务器之间的网络速度通常都会高于跨机架服务器之间的网络速度,并且机架之间服务器的网络通信通常受到上层交换机间网络带宽的限制。hadoop也提供了脚本的方式来配置机架感知方式,常见的实现方式有shell脚本和python脚本两种方式,这里以python脚本为例。hadoop对机架的感知并非是自适应的,而是需要使用者告诉hadoop机器(ip)与机架的对应关系。查看集群机器分布情况。原创 2018-06-24 16:10:44 · 565 阅读 · 1 评论 -
7. Hadoop小文件归档
HDFS提供了一种针对小文件的归档方案,NameNode将多个小文件归档后的文件视为一个整体,所以可以大大降低元数据的开销。但是对于用户访问来说却是透明的,仍然可以可以对每个文件单独访问。HDFS文件的元数据存放在NameNode,大量的小文件会导致NamenNode内存耗尽。原始目录/input有3个小文件,分别为a.txt, b.txt, c.txt。文件归档需要执行mapreduce任务,所以要确保yarn服务正常启动。将input目录归档成input.har。原创 2019-12-06 10:46:43 · 690 阅读 · 1 评论 -
8. HDFS快照与配额
本文介绍了HDFS快照与配额的功能与使用。原创 2018-07-14 16:26:48 · 654 阅读 · 1 评论 -
9. YARN 架构概述
本文介绍了YARN的产生背景以及设计架构,工作流程。原创 2018-07-14 00:20:11 · 1218 阅读 · 0 评论 -
10. MapReduce实现wordcount
mapreduce是一个并行计算框架,它起源于Google的MapReduce论文,它主要用于离线海量数据计算。优点:海量数据离线处理,开发简单,部署方便缺点:仅适用于批处理,不支持实时数据计算。原创 2024-10-24 11:16:20 · 987 阅读 · 0 评论 -
11. MapReduce实现序列化,自定义combiner和自定义partitioner
1.什么是序列化序列化就是将对象转换为字节序列以便于存储到磁盘或网络传输。反序列化就是将字节序列转换为对象的过程。2.为什么要序列化程序中的对象不能直接网络传输或者持久化,所以在跨主机通信和数据持久化的场景下就需要用到序列化。原创 2020-03-11 23:41:01 · 372 阅读 · 0 评论 -
12. MapReduce全局计数器
在执行MapReduce程序时,控制台的输出中一般会包含如下内容。这些输出就是MapReduce的全局计数器的输出信息。计数器是用来记录job的执行进度和状态的,它的作用可以理解为日志,方便用户了解任务的执行状况,辅助用户诊断故障。常见内置计数器File System Counters:跟踪作业读写的文件系统操作,如HDFS读写字节数。Job Counters:作业相关的统计,如作业的提交数量、耗费的时间。原创 2024-10-28 09:20:06 · 526 阅读 · 0 评论 -
13. MapReduce自定义OutputFormat
OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口,它接收ReduceTask产生的数据,然后将结果按照指定格式来写出。在MapReduce中,如果不指定,默认使用的是TextOutputFormat。但是在一些特定的场景下,默认的TextOutputFormat不一定能满足我们的需求,因此可以自定义自己的OutputFormat。原创 2024-10-30 09:59:21 · 507 阅读 · 0 评论 -
14. HDFS基准测试
当Hadoop集群搭建完成后,为了弄清楚HDFS的读写性能,我们可以对集群做一次基准测试。Hadoop安装包中自带了对HDFS进行基准测试的工具类。原创 2024-12-28 12:25:49 · 1012 阅读 · 0 评论 -
Flume 概述
flume 自定义source原创 2019-12-22 19:06:27 · 206 阅读 · 0 评论
分享