
hadoop
文章平均质量分 90
快乐咸鱼Y
这个作者很懒,什么都没留下…
展开
-
day06(Hadoop分布式搭建)
Hadoop搭建原创 2022-07-14 13:09:23 · 427 阅读 · 0 评论 -
day05 hadoop(shuffle优化,zk搭建Hadoop)
三、shuffle的优化1.减少溢写次数︰a.增大缓冲区,实际过程中缓冲区的大小一般是在250~400M之间b.增大缓冲区阈值,同时增加了写入阻塞的风险–不建议c.增加Combine的过程2.可以考虑将Map的结果文件进行压缩,这个方案是在网络资源和CPU资源之间的取舍3.增加fetch线程的数量4.增大merge因子InputFormat(格式处理【处理一行变处理多行】)一、概述1.InputFormat中定义了2个抽象方法∶a. getSplits用于产生切片b. createRe原创 2021-11-15 21:50:07 · 1309 阅读 · 0 评论 -
day04 hadoop(mr底层原理)
案例一:单词对应的目录统计//按照分数降序排序 @Override public int compareTo(Score o) { return o.score-this.score; }package cn.tedu.invert;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apach原创 2021-11-14 00:52:23 · 1415 阅读 · 0 评论 -
hadoop day03(hdfs mapreduce)
简介一、概述1.HDFS是Hadoop中用于进行数据分布式存储的模块二、特点1.能够存储超大文件-分布式+切块2.能够快速的应对和检测故障-心跳3.高可用-副本+双namenode4.能够动态扩展在廉价机器上-横向扩展5.不支持低延迟响应6.不建议存储小文件-每一个小文件会对应一条元数据,大量小文件则会产生大量元数据,元数据多了就会导致元数据的查询效率也变慢7.简化的一致性模型-允许一次写入多次读取8.不支持事务吞吐量-单位时间内节点或者集群读写的数据总量1s读写100M — 1原创 2021-10-04 23:46:02 · 152 阅读 · 0 评论 -
hadoop day02
HDFS简介一、概述1.HDFS是Hadoop中用于数据存储的模块细节一、概述1.HDFS中,存储数据的时候会将数据进行切块,每一个块称之为一个Block,2.HDFS中,主要包含两个重要的进程,NameNode和DataNode。NameNode用于管理节点和记录元数据(metedata);DataNode是用于存储数据。3.HDFS会对数据自动进行备份,称之为副本(replication)。如果不指定,默认情况下副本数量为3(额外复制两次,加上原来的数据构成3个副本)4.HDFS仿照L原创 2021-08-23 21:40:15 · 261 阅读 · 0 评论 -
Hadoop day01
大数据概述一、6v1.数据体量大2.数据种类样式多3.数据的增长速度越来越快4.数据的价值密度5.数据的真实性6.数据的联通性7.数据的动态性、可视化以及合法性二、分类大数据的相关岗位:数据的存储数据的采集数据清洗-ETL数据分析 离线批处理 实时流处理数据挖掘数据可视化Hadoop简介一、概述1.Hadoop是apache提供的一套开源的,可靠的,可扩展的,进行分布式存储和计算的框架。2.Hadoop的版本很混乱二、发展历程1.创始人: Doug Cutt原创 2021-08-21 17:58:31 · 175 阅读 · 0 评论