
Hadoop
文章平均质量分 81
总结Hadoop关键知识
sun_lm
这个作者很懒,什么都没留下…
展开
-
HDFS理论基础
1.存储模型2.架构设计3.角色功能PS:角色对应的就是一个或者多个进程4.元数据持久化5.安全模式HDFS合并EditLog与FsImage的过程:HDFS启动前会进行格式化,生成一个空的FsImage,假设HDFS集群在8:00时进行第一次初始化启动 8:00 - 9:00 期间,对HDFS的操作记录在EditLog中,NameNode内存中存储了相关的元数据,但是此时硬盘中的FsImage还是空的 假设9点到达checkpoint,S原创 2021-12-19 19:03:25 · 902 阅读 · 0 评论 -
大数据思维引导
1、需求有一个大小为1TB的文件,里面有许多行,其中只有两行一样,这两行的位置未知,需要找出这两行。2、单机处理思路假设如下:单机可用内存500M IO速度为500M/s,读取1TB的文件约2000s,约30分钟。与硬盘IO时间相比,CPU计算以及内存存取时间可以忽略。因此,以下估算中,主要估算的是硬盘IO时间,忽略了CPU计算以及内存存取时间。最简单的思路:读取文件的第一行到内存中 读取文件的第二行,并与第一行内存做比较 如果两行内容相同,则找到结果 如果两行内容不同,.原创 2021-12-19 17:31:36 · 1045 阅读 · 0 评论