大数据之 Hadoop学习笔记

最新推荐文章于 2025-09-12 20:46:57 发布

weixin_30810583

最新推荐文章于 2025-09-12 20:46:57 发布

阅读量65

点赞数

CC 4.0 BY-SA版权

文章标签：大数据

原文链接：http://www.cnblogs.com/guobm/p/10119554.html

本文介绍了Hadoop生态系统中关键组件的功能与用途，包括HDFS、MapReduce、Ambari、Zookeeper、HBase、Hive、Pig、Mahout、Flume、Sqoop等，深入解析了MapReduce的思想及其实现机制。

1 hadoop生态系统

hdfs 分布式文件系统 hadoop-hdfs-2.7.2.jar

mapreduce 分布式计算框架 hadoop-mapreduce-client-app-2.7.2.jar

Ambari 安装部署配置和管理工具

zookeeper分布式协作服务zookeeper-3.5.1.jar

hbase实时分布式数据库hbase-server-1.0.2.jar

hive数据仓库hive-service-1.2.1.spark.jar

pig数据流处理

mahout数据挖掘库

flume日志收集工具flume-ng-sdk-1.6.0.jar

sqoop数据库etl工具

2 mapreduce 思想分而治之，需要分别实现2个方法：map()，reduce()

Mapper 分解若干任务处理Job

Reducer 将map任务的输出处理后写成文件到hdfs

转载于:https://www.cnblogs.com/guobm/p/10119554.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30810583

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】

upward

03-23

3697

尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】

第一章 大数据Hadoop学习笔记(一）

weixin_42561051的博客

06-21

465

学习笔记（一）

参与评论您还未登录，请先登录后发表或查看评论

【大数据】Hadoop学习笔记

passnight的博客

06-24

1556

Hadoop学习笔记, 包含了HDFS/YARN/MapReduce的学习笔记

尚硅谷课程【笔记】——大数据之Hadoop【一】

n04j04h06的博客

02-12

2007

尚硅谷课程【笔记】——大数据之Hadoop【一】 Hadoop3.x教程

大数据——Hadoop学习笔记

koooooooo5的博客

05-08

333

大数据之Hadoop图解概述

2401_84048179的博客

04-20

1322

1）NameNode（nn）：存储文件的。

大数据框架Hadoop篇之Hadoop入门

Miracle8070

12-18

2568

Hadoop是一个Apache基金会开发的分布式系统基础架构，主要解决：海量数据的存储和海量数据的分析计算问题

【大数据】Hadoop新手小白学习初体验（尚硅谷hadoop3.x教程同步笔记）

YG15165的博客

07-04

1361

Hadoop是用来解决海量数据的存储和海量数据的分析计算问题，一个分布式系统基础架构高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度高容错性：能够自动将失败的任务重新分配Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

【大数据】Hadoop概述

ZLin0007的博客

07-29

702

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是一个更广泛的概念——Hadoop生态圈。Yet Another Resource Negotiator简称YARN ，另一种资源协调者，是Hadoop的资源管理器。整个集群资源(内存、CPU等)的老大。单个节点服务器资源的老大。单个任务运行的老大。Container：容器，相当一台独立的服务器，里面封装了任务运行所需要的资源，如。

大数据之Hadoop学习教程+笔记合计_超详细完整.zip

01-07

大数据之Hadoop学习教程+笔记合计_超详细完整.zip

尚硅谷大数据技术之Hadoop（MapReduce）1

08-08

【尚硅谷大数据技术之Hadoop（MapReduce）1】深入解析MapReduce MapReduce是Google提出的一种用于处理和生成大规模数据集的编程模型，被广泛应用于大数据处理领域。Hadoop将其作为核心组件，实现了分布式计算的功能...

大数据hadoop学习笔记

01-14

这是自己学习大数据时整理的笔记，希望能够不使用资源分，免费分享！

AI-调查研究-74-具身智能机器人学习新突破：元学习与仿真到现实迁移的挑战与机遇

永远好奇，无限进步！

09-10

961

具身智能体要实现高效学习与技能迁移，核心在于提升少样本学习与跨任务泛化能力。当前机器人学习面临多重挑战：一是任务间的迁移难度大，已学技能难以快速应用到相似任务；二是不同机器人形态和传感系统的异构性增加了适配难度；三是现有强化学习与模仿学习在样本效率和泛化能力上存在局限。为突破瓶颈，研究重点聚焦于元学习、少样本模仿学习和多任务预训练策略。例如，MAML等元学习框架可显著提升新任务适应速度，大规模多任务预训练则能为下游

TDengine 选择函数 TOP() 用户手册

最新发布

TDengine(老段）专注时序数据库领域

09-12

524

其中，TDengine TSDB 是一款高性能、分布式的时序数据库（Time Series Database），同时它还带有内建的缓存、流式计算、数据订阅等系统功能；TDengine IDMP 是一款AI原生工业数据管理平台，它通过树状层次结构建立数据目录，对数据进行标准化、情景化，并通过 AI 提供实时分析、可视化、事件管理与报警等功能。函数返回指定列中最大的 k 个非 NULL 值及其对应的记录。如果多条数据取值相同，且全部取用会超出 k 条限制时，系统会从相同值中随机选取符合要求的数量返回。

还在重启应用改 Topic？Spring Boot 动态 Kafka 消费的“终极形态”

郑龙飞

09-10

686

/ 用于存储 @KafkaListener 的“蓝图”// ... 可按需添加 concurrency, autoStartup 等其他属性(元数据采集与注册)@Component@OverrideClass<?= null &&!通过巧妙地结合和动态配置中心，我们实现了一个功能极其强大的动态 Kafka 消费管理方案。

内存大（巨）页

fpcc的专栏

09-12

383

文章摘要：大页（巨页）是比标准4KB页更大的内存页（如2MB或1GB），用于优化内存管理。随着内存容量增长，传统小页导致页表膨胀、TLB命中率下降等问题。大页通过减少页表层级、提升连续内存访问效率，显著提高性能，尤其适用于数据库、大数据处理、高性能计算等场景。但其分配复杂，可能加剧内存碎片。技术发展推动内存管理演进，未来可能出现更优方案。开发者需持续关注前沿技术动态。（150字）

想拿到ip地址库的离线包

Nothing

09-09

664

如果你只做“中国境内日志 -> 省市”离线解析，纯真社区版无论体积还是精度都够用；想要街道级或风险标签，再考虑商业数据源；任何 IP 库都有边界漂移，记得留好“未知”兜底与灰度观测。

当建筑工程遇上“AI+虚拟仿真”：打开未来工程人才培养的创新之门

恒点虚拟仿真官方博客

09-09

723

虚拟仿真技术助力国际工程管理人才培养。随着一带一路建设推进，海外工程需求激增，传统教学面临实践成本高、文化差异大等瓶颈。AI+虚拟仿真技术构建沉浸式实训场景，通过虚拟仿真技术，模拟海外项目全过程，涵盖招投标、施工管理等环节，同时整合各国法规标准数据库，有效提升学生的跨文化适应能力和实操技能。该模式突破时空限制，为培养复合型国际工程人才提供创新解决方案，精准对接政策要求和市场需求。

Mac本地docker安装Kibana+ElasticSearch

liliang199的专栏

09-11

507

Kibana是和ElasticSearch协同的经典工具，这里尝试在Mac以Docker方式快速搭建Kibana+ElasticSearch。假设Docker已安装，细节参考Docker若不能正常pull，可能需修改配置，参考。