7种最常见的大数据框架Hadoop和Spark项目

最新推荐文章于 2025-05-13 14:15:00 发布

原创

最新推荐文章于 2025-05-13 14:15:00 发布 · 2.7k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#程序员 #编程语言 #编程 #大数据

本文列举了7种最常见的大数据框架Hadoop和Spark的项目类型，包括数据整合、专业分析、Hadoop作为服务、流分析、复杂事件处理、ETL流和替换或补充SAS系统。这些项目涵盖了从数据整合到实时事件处理的各种需求，展示了大数据技术在不同场景下的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

有一句古老的格言是这样说的，如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情，他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm，每个人都认为他们正在做一些与这些新的大数据技术相关的事情，但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同，但根据我的经验，它们是最常见的七种项目。

项目一：数据整合

称之为“企业级数据中心”或“数据湖”，这个想法是你有不同的数据源，你想对它们进行数据分析。这类项目包括从所有来源获得数据源(实时或批处理)并且把它们存储在hadoop中。有时，这是成为一个“数据驱动的公司”的第一步;有时，或许你仅仅需要一份漂亮的报告。“企业级数据中心”通常由HDFS文件系统和HIVE或IMPALA中的表组成。未来，HBase和Phoenix在大数据整合方面将大展拳脚，打开一个新的局面，创建出全新的数据美丽新世界。

销售人员喜欢说“读模式”，但事实上，要取得成功，你必须清楚的了解自己的用例将是什么(Hive模式不会看起来与你在企业数据仓库中所做的不一样)。真实的原因是一个数据湖比Teradata和Netezza公司有更强的水平扩展性和低得多的成本。许多人在做前端分析时使用Tabelu和Excel。许多复杂的公司以“数据科学家”用Zeppelin或IPython笔记本作为前端。

项目二：专业分析

许多数据整合项目实际上是从你特殊的需求和某一数据集系统的分析开始的。这些往往是令人难以置信的特定领域，如在银行领域的流动性风险/蒙特卡罗模拟分析。在过去，这种专业的分析依赖于过时的，专有的软件包，无法扩大数据的规模经常遭受一个有限的功能集(大部分是因为软件厂商不可能像专业机构那样了解的那么多)。

在Hadoop和Spark的世界，看看这些系统大致相同的数据整合系统，但往往有更多的HBase，定制非SQL代码，和更少的数据来源(如果不是唯一的)。他们越来越多地以Spark为基础。

项目三：Hadoop作为一种服务

在“专业分析”项目的任何大型组织(讽刺的是，一个或两个“数据整理”项目)他们会不可避免地开始感觉“快乐”(即，疼痛)管理几个不同配置的Hadoop集群，有时从不同的供应商。