
大数据入门笔记
文章平均质量分 56
大数据入门笔记
Jack_Roy
剃人头者,人亦剃其头。
展开
-
【大数据入门笔记系列】第六节 分布式计算框架MapReduce的工作流程
【大数据入门笔记系列】第六节 分布式计算框架MapReduce的工作原理MapReduce分布式运算MapReduceApplicationMapReduce分布式运算MapReduce分布式运算程序至少分成两个阶段:第一阶段各个节点独立完成所分得的计算任务,这个时候各节点保持着并发运行,这便是Map阶段;第二阶段就是统计第一阶段的结果,统计实例根据统计内容可以为多个(有些统计只能有一...原创 2020-02-19 00:30:32 · 12132 阅读 · 1 评论 -
【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)
【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml编写代码前言本来是想直接扒一扒MapReduce的工作原理,但是觉得只是图解或者文字描述,没有Demo的运行体验总是无趣的,一遍走下来也没有什么成就感,因此还是要撸一撸代码的。那么谈到MapReduce的工作原理,我们的Demo首选...原创 2020-02-17 00:07:13 · 14518 阅读 · 5 评论 -
【大数据入门笔记系列】第四节 NameNode元数据缓存机制
【大数据入门笔记系列】第四节 NameNode元数据缓存机制NameNode如何防止内存中的元数据无限膨胀?如何降低元数据丢失风险?SecondaryNameNodecheckpoint触发条件设定后记跳转NameNode如何防止内存中的元数据无限膨胀?客户端向分布式文件系统请求上传文件,NameNode需要写入Socket的相关元数据;客户端向分布式文件系统请求下载文件,NameNod...原创 2020-02-14 18:07:43 · 12648 阅读 · 0 评论 -
【大数据入门笔记系列】第三节 Hdfs读、写数据处理流程
【大数据入门笔记系列】第三节 Hdfs写数据处理流程Hdfs简介写数据处理流程后记跳转Hdfs简介一般而言,Hdfs是由一个NameNode节点和若干个DataNode节点组成(非高可用,高可用还有一个SecondNameNode)。NameNode:管理分布式文件系统的元数据,这些元数据是一些诸如描述文件的存储路径以及block具体在哪些DataNode上的具体位置等;DataNod...原创 2020-02-14 03:07:13 · 15471 阅读 · 0 评论 -
【大数据入门笔记系列】第二节 Zookeeper简介
【大数据入门笔记系列】Zookeeper简介前言Zookeeper简介选举方式脑裂问题跳转前言上一节介绍了,Zookeeper是一种分布式的、开放源码的分布式应用程序协调服务,该服务用于维护配置信息、提供分布式同步以及分组等事务。Zookeeper简介Zookeeper为其他集群提供服务,比如服务的主从选举、客户端的注册监听,Zookeeper内部也是一个集群,且通常节点的数目是奇数个(划...原创 2020-02-14 00:04:32 · 14089 阅读 · 0 评论 -
【大数据入门笔记系列】第一节 大数据常用组件
【大数据入门笔记系列】大数据常用组件大数据释义大数据组件大数据释义近些年来,坊间一直流传着这样的言论:“大数据时代,人人都在裸奔”。对于外行人来说,对于“大数据”这个词最直观的理解就是“大的数据集”,这样理解是没有错的,但对于行内人来说,这样的理解就太过苍白了。大数据究竟指的是什么?答:大数据是指在一定时间内无法用常规软件工具对其内容进行抓取、管理和处理的数据集合。适用于大数据的技术有...原创 2020-02-13 22:00:20 · 15485 阅读 · 0 评论