Hadoop学习笔记——哪些场景适用，哪些不适用。

最新推荐文章于 2024-09-27 14:06:30 发布

原创最新推荐文章于 2024-09-27 14:06:30 发布 · 900 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop

Hadoop 专栏收录该内容

3 篇文章

订阅专栏

本文探讨了Hadoop的设计目的及其应用场景，包括处理超大文件、流式数据访问及使用商业硬件的情况，并指出了Hadoop不适用于低延迟数据访问、大量小文件处理及多用户写入与任意修改的限制。

Hadoop不是万能的，有些场景适用，有些不适用。

Hadoop设计的目的主要包括下面几个方面，也就是所谓的适用场景：

1：超大文件

可以是几百M，几百T这个级别的文件。

2：流式数据访问

Hadoop适用于一次写入，多次读取的场景，也就是数据复制进去之后，长时间在这些数据上进行分析。

3：商业硬件

也就是说大街上到处都能买到的那种硬件，这样的硬件故障率较高，所以要有很好的容错机制。

接下来说说不适用的场景：

1：低延迟数据访问

Hadoop设计的目的是大吞吐量，所以并没有针对低延迟数据访问做一些优化，如果要求低延迟，可以看看Hbase。

2：大量的小文件

由于NameNode把文件的MetaData存储在内存中，所以大量的小文件会产生大量的MetaData。这样的话百万级别的文件数目还是可行的，再多的话就有问题了。

3：多用户写入，任意修改

Hadoop现在还不支持多人写入，任意修改的功能。也就是说每次写入都会添加在文件末尾。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

spark____

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hadoop之Hadoop的前世今生，适合什么场景？

arno_wzkdhr的专栏

02-01

623

一提大数据，人们就想到Hadoop。Hadoop基本上成为了大数据的代言人了。那Hadoop到底是什么？用于解决什么问题？ hadoop的起源背景 HDFS源自于Goole的GFS论文（发表于2003年10月），HDFS是GFS的克隆版。 PS: 近些年和google相关的几个开源产品对软件进步影响还是挺大的，比如：移动应用圈的Android、大数据圈的Hadoop、云原生圈的Kubernetes。这是众多计算机牛人喜欢google的很大的一个原因吧 hadoop的.

Hadoop学习笔记（十）——HDFS Snapshot快照功能

AidenBrett7的博客

11-19

683

Hadoop——HDFS Snapshot快照功能一、概述二、具体操作一、概述快照snapshots是HDFS文件系统的只读的基于某时间点的拷贝，可以针对某个目录，或者整个文件系统做快照。快照比较常见的应用场景是数据备份，以防一些用户错误或灾难恢复。快照的高效性实现：（1）快照可以即时创建。（2）只有当涉及到快照目录的修改被执行时，才会产生额外的内存消耗。（3）创建快照时，blo...

参与评论您还未登录，请先登录后发表或查看评论

10个Hadoop的应用场景

weixin_34346099的博客

07-16

289

谁在用 Hadoop这是个问题。在大数据背景下，Apache Hadoop已经逐渐成为一种标签性，业界对于这一开源分布式技术的了解也在不断加深。但谁才是 Hadoop的最大用户呢？首先想到的当然是它的“发源地”,像Google这样的大型互联网搜索引擎，以及Yahoo专门的广告分析系统。也许你会认为， Hadoop平台发挥作用的领域是互联网行业，用来改善分析性能并提高扩展性。其...

Hadoop一般用在哪些业务场景

xiaofei0859的专栏

12-05

3282

其实我们要知道大数据的实质特性：针对增量中海量的结构化，非结构化，半结构数据，在这种情况下，如何快速反复计算挖掘出高效益的市场数据？带着这个问题渗透到业务中去分析，就知道hadoop需要应用到什么业务场景了！！！如果关系型数据库都能应付的工作还需要hadoop吗？比如 1.银行的信用卡业务，当你正在刷卡完一笔消费的那一瞬间，假如在你当天消费基础上再消费满某个额度，你就可以免费

hadoop的适用场景

围城

08-17

627

2018/08/17 对于不同的数据是不是可以抽象一个通用的框架（或模型的说法）来解决这个数据是否是用于hadoop的场景。 2018/08/22 当时写这个的想法，是想通过一个计算框架，来看是否hadoop适用于这个任务。 ...

hadoop使用场景

yck974666396的博客

06-15

519

hadoop使用场景

学习笔记Hadoop（一）—— Hadoop介绍（1）——认识大数据

别呀的博客

09-24

1066

一、认识大数据 1.1、认识大数据大数据（Big data）或称巨量数据、海量数据、大资料，指的是所涉及的数据量规模巨大到无法通过人工或者计算机，在合理的时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。 1.2、大数据特征 Volumn：容量，数据的大小 Variety：种类，数据类型的种类 Velocity：速度，获取数据的速度 1.3、大数据流程图 1.4、什么是大数据平台？大数据平台是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括H

大数据技术——Hadoop（学习笔记1）

RomanticRick的博客

03-25

2451

大数据技术——Hadoop Hadoop概述 Hadoop 运行环境搭建 1.Hadoop概述 1.1Hodoop是什么？ 1）Hadoop 是一个由Apache基金会所开发的分布式系统基础框架。 2）主要功能是处理海量数据的存储和海量数据的分析计算问题。 3）在广义上来说，Hadoop并不是单指一个技术和工具，它代表一个更广泛的概念——Hadoop生态圈。 1.2Hadoop发展历史（了解）创始人：Doug Cutting Hadoop的大数据思想之源是来自Google在.

Hadoop学习笔记（一）分布式文件存储系统 —— HDFS

zhang35的博客

11-12

972

概念 HDFS （Hadoop Distributed File System），Hadoop分布式文件系统，用来存超大文件的。 HDFS 遵循主/从架构，由单个 NameNode(NN) 和多个 DataNode(DN) 组成： NameNode : 负责执行有关文件系统命名空间的操作，例如打开，关闭、重命名文件和目录等。它同时还负责集群元数据的存储，记录着文件中各个数据块的位置信息。管理员，负责协调。 DataNode：负责提供来自文件系统客户端的读写请求，执行块的创建，删除等操作。打工人，负责存

hadoop学习笔记（二）

11-12

在标题提到的“hadoop学习笔记（二）”中，我们看到作者通过编写一个MapReduce测试类`MyMapReduceSIngleColumnTest`来学习和理解Hadoop MapReduce的基本工作原理。这个测试类是基于一个简单的假设，即我们通常会遇到...

hadoop应用场景总结

repoman的博客

02-17

6578

hadoop的十大应用场景？ hadoop到底能做什么？ 2012年美国著名科技博客GigaOM的专栏作家Derrick Harris跟踪云计算和Hadoop技术已有多年时间，在一篇文章中总结了10个Hadoop的应用场景，下面分享给大家：　　在线旅游：目前全球范围内80%的在线旅游网站都是在使用Cloudera公司提供的Hadoop发行版，其中SearchBI网站曾经报道过的Expedia也在其中。移动数据：Cloudera运营总监称，美国有70%的智能手机数据服务背后都是由Hadoop来支.

hadoop的一些应用场景总结

weixin_45144846的博客

08-26

3036

Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。能源开采：美国Chevron公司是全美第二大石油公司，他们的IT部门主管介绍了Chevron使用Hadoop的经验，他们利用Hadoop进行数据的收集和处理，其中这些数据是海洋的地震数据，以便于他们找到油矿的位置。...

Hadoop框架及应用场景说明

最新发布

finedatalink的博客

09-27

2736

Hadoop是一个开源的分布式系统基础架构。由多个组件组成，组件之间协同工作，进行大规模数据集的存储和处理。本文将探讨Hadoop的架构以及应用场景。

Hadoop不适合哪些场景哪些场景适合？

weixin_33842304的博客

08-01

2043

Hadoop设计的目的主要包括下面几个方面，也就是所谓的适用场景： 1：超大文件可以是几百M，几百T这个级别的文件。 2：流式数据访问 Hadoop适用于一次写入，多次读取的场景，也就是数据复制进去之后，长时间在这些数据上进行分析。 3：商业硬件也就是说大街上到处都能买到的那种硬件，这样的硬件故障率较高，所以要有很好的容错机制。接下来说说不适用的...

HDFS适用场景及不适用场景

weixin_44704605的博客

10-14

1954

HDFS适用场景 1、海量数据存储 2、高容错 3、商用廉价的硬件 4、存储大文件 5、一次写入多次读取 HDFS不适用场景 1、查询时效性要求低延迟的场景 2、大量小文件。 3、需要频繁修改数据的场景 4、多个用户同时操作一个文件 ...

不适合使用Hadoop的场景

一台数据分析的机器！

11-21

1320

转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Hadoop...

MapReduce

维卡的博客

02-23

594

一、MapReduce的分布式计算框架原理 mapreduce它是一种编程模型，用于大规模数据集（大于1TB）的并行运算概念：map(映射) reduce(归约) 是它们的主要思想都是从函数式编程语言借来的和矢量编程语言借来的，极大的方便了编程人员在不会分布式并行编程的情况下，让程序运行在分布式系统上，当前实现的是把map函数中的键值对映射成新的键值对，指定并发的reduce函数，保证所有映...

MapReduce的优缺点是什么？

jakelihua

09-12

1485

它将数据处理过程分为两个主要阶段：Map阶段和Reduce阶段。在Map阶段，数据被分割为多个小块，并由多个并行运行的Mapper进行处理。在Reduce阶段，Mapper的输出被合并和排序，并由多个并行运行的Reducer进行最终的聚合和计算。综上所述，MapReduce是一种适用于大规模数据处理的编程模型和计算框架，具有可伸缩性、容错性、灵活性和易用性等优点。然而，它在实时计算和交互式查询等场景下的适用性有限，同时开发和调试MapReduce作业的复杂性也需要考虑。

MapReduce分布式计算框架的优缺点

m0_60258751的博客

09-28

2221

duce 的基本原理和设计思想。MapReduce是一个可用于大规模数据处理的分布式计算框架，它借助函数式编程及分而治之的设计思想，使编程人员在即使不会分布式编程的情况下，也能够轻松地编写分布式应用程序并运行在分布式系统之上。Hadoop 中的 MapReduce是一个易于使用的软件框架，基于此框架编写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠的方式并行处理TB或PB级别的数据集。MapReduce 作业的输出结果写入磁盘，这样会造成大量的磁盘 IO，导致性能非常低下。

Spark与Hadoop大数据处理学习笔记

“Spark + Hadoop大数据处理学习笔记”这一标题和描述揭示了当前在大数据领域中最为经典且广泛应用的技术组合——Apache Spark与Apache Hadoop的协同使用。这两者共同构成了现代企业级大数据处理平台的核心架构，...