大数据学习笔记（一）

最新推荐文章于 2022-05-21 23:56:56 发布

原创最新推荐文章于 2022-05-21 23:56:56 发布 · 210 阅读

1 ·

CC 4.0 BY-SA版权

学习同时被 2 个专栏收录

22 篇文章

订阅专栏

技术

16 篇文章

订阅专栏

本文深入探讨Hadoop生态系统，包括HDFS文件读写流程、NameNode与SecondaryNameNode交互机制、HBase数据存储结构及MapReduce数据处理过程。通过WordCount实例解析Shuffle阶段的MapShuffle和ReduceShuffle操作。

部署运行你感兴趣的模型镜像

（一）Hadoop的应用

（二）NameNode数据结构

（三）分布式文件系统结构

（四）NameNode和SecondaryNameNode的交互

（五）HDFS文件读写过程

读文件

写文件

（六）HBase数据结构

数据表格式

	Info
	Name	Major	Email
201505001	Luo Min	Math	luo@qq.com
201505002	Liu Jun	Math	liu@qq.com
201505003	Xie You	Chemistry	xie@qq.com you@qq.com

数据存储结构

META-ROOT-ZK三级存储

（七）MapReduce体系结构

（八）MapReduce数据处理

数据处理过程

程序执行过程

WordCount实例

（九）Shuffle数据处理

Map Shuffle

Reduce Shuffle

（十）MapReduce自然连接实例

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

查理忙果

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大数据学习笔记

smilinggg的博客

02-23

939

大数据学习笔记一.概念二 .批处理与流处理1.批处理2.流处理三.批处理软件1.Hadoop 一.概念 大数据（Big Data）指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。四个主要特征： Volume（数据量）数据量大是大数据的比较明显的特征，一般是TB级的数据量，并且每天数据的增长量比较大。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/202

大数据学习心得

热门推荐

知行_那片天

03-01

5万+

大数据学习心得一、概述1大数据简介 1.1起源 “大数据“，近几年来最火的词之一。虽然大数据这个词的正式产生也就10年左右，但对大数据分析却早就有之。早在互联网初期，就有很多公司通过计算机技术对大量的分析处理，比如各个浏览引擎。然而，大数据的真正提出却是源自2008.09.03 《Nature》专刊的一篇论文，紧接着，产业界也不断跟进，麦肯锡于2011.06 发布麦肯锡全球研究院报告，标志着

参与评论您还未登录，请先登录后发表或查看评论

大数据学习笔记.zip

01-01

"大数据学习笔记.zip"这一压缩包文件，提供了对大数据学习内容的详细记录和总结，涵盖了大数据生态中多个重要工具和技术的学习笔记。从文件的描述中可以得知，这是一份个人学习的记录，随时更新和修改，内容的准确性...

大数据学习笔记汇总指南

03-28

这份“大数据学习笔记汇总指南”涵盖了大数据技术栈中的关键组件，包括Hadoop、Hive、Spark、Storm、Flink以及HBase。让我们逐一深入探讨这些技术及其在大数据生态系统中的作用。一、Hadoop Hadoop是Apache基金会...

大数据学习笔记.docx

11-09

本笔记将深入探讨大数据的基本概念，包括Hadoop、Hive、离线计算、实时计算、数据库、数据仓库、维度建模以及大规模并行处理MPP，还将介绍阿里云的一些大数据产品，如MaxCompute、DataWorks、数据集成、机器学习PAI...

零基础大数据学习笔记.zip

最新发布

01-03

这份大数据学习笔记为初学者提供了一个清晰的学习路径和实用的案例分析，涵盖从基础的Linux操作系统到高级的Spark实时数据处理，系统地构建了学习者的知识体系，让初学者能够逐步深入地掌握大数据技术的精髓。

我的大数据学习笔记

大数据基础入门教程

02-06

697

PC端的这个右侧的目录找东西确实好找点，我每次写也非常注意看这块排版工不工整，用这里去直接跳到对应的内容真的还算方便，所以就想着做个目录，以后如果写了新的，也会在这篇写上标题。按照不同技术框架的划分形式。已经有写过的就写上，没写过的就先空着。 1. 分布式存储 HDFS ① HDFS基础概念篇内容概要：block的概念与副本、机架存储策略、三大组件：NameNode，DataNo...

大数据技术学习笔记（一）—— 大数据概论

hu_wei123的博客

05-21

3879

1 大数据的概念 大数据：指无法在一定的时间范围内用常规的软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决海量数据的存储和海量数据的分析计算问题。 2 大数据的特点 大数据的特点简称 4V 特征： Volume（数据量大） Velocity（速度快） Variety（种类繁多） Value（价值密度低） 3 大数据生态圈 3.1 Hadoop 是什么 Hadoop是一个由Apache基金会所开发的分布式系

十小时入门大数据学习笔记（二）

进击的小怪兽

02-23

2158

第二章初识Hadoop2.1Hadoop概述名称由来：项目作者的孩子对黄色大象玩具的命名开源、分布式存储与分布式计算的平台 Hadoop能做什么：1. 搭建大型数据仓库，PB级数据的存储、处理、分析、统计等业务2. 搜索引擎、日志分析、数据挖掘、商业智能 2.2Hadoop核心组件HDFS（分布式文件系统）1. 源于Google在2003年10月发表的GFS论文2. 对GFS的克隆3. 特点：扩...

BI大数据实践笔记

qq_15240885的博客

07-04

818

背景：在产品迭代缓慢的时期，对数据现状及未来发展做了综合评估： 1.利用mysql来进行凌晨及每小时的中间表生成的计划任务，效率变低，已经逐渐满足不了敏捷化的迭代需求； 2.mysql埋点库的数据量变大，存储方式采用分表存储，极大地降低数据利用效率(需要整合一张大表)； 3.未雨绸缪，即使目前的工作需求在不断优化解决方案的同时仍然可以解决，但是考虑到产品有爆发的潜质，必须提前做好...

大数据系列1：大数据概述

kittyzc的博客

09-09

562

1. 基本概念 Docker：就是操作系统中的chroot。可以理解为你在写一篇论文的时候新建了一个文件夹，所有的东西都在这个文件夹里面。 Host：主机，运行容器的机器。比如我们自己的电脑。 Image：镜像，文件的层次结构，包含如何运行容器的元数据。可以比成一个论文模板。 Container：容器，从镜像启动，包含正在运行的程序的进程。可以比成我们电脑里打开的论文。run相当于打开论文...

大数据学习笔记总结

xuqiaobo的博客

03-09

7504

自己总结的这些知识点都是从赵勇编写的架构大数据-大数据技术及算法分析这本书上总结的。在接触这本书之前，自己对于大数据的概念还很模糊，对于大数据和云计算的差别还是很不清楚，看完书之后，总结一下几点： 1）大数据主要侧重于数据的处理，流数据、批量数据、图计算等。在数据处理过程中，批量的数据处理的代表工具是Hadoop，流数据的数据处理代表的是Storm技术，而图计算这种密集型的代表是Spark，