云数据平台:架构、优势与应对策略
1. 云数据平台的崛起
云数据平台在当今数据处理领域正发挥着越来越重要的作用。以 AWS EMR 为例,它是一个使用开源工具进行数据处理的云数据平台,作为 AWS 的托管服务,允许用户在 AWS 上运行 Hadoop 和 Spark 作业。创建新集群的操作步骤如下:
1. 指定所需的虚拟机数量和类型。
2. 提供要安装在集群上的软件列表,之后 AWS 会完成其余配置工作。通常只需几分钟,一个功能完备的集群就能启动并运行,相比搭建本地 Hadoop 集群所需的数月规划、采购、部署和配置时间,优势显著。此外,AWS EMR 还允许将数据存储在 AWS S3 上,并在 AWS EMR 集群上处理数据,而无需将数据永久存储在 AWS EMR 机器上,这为集群的运行数量和配置提供了极大的灵活性,还能创建临时集群,任务完成后即可销毁。
2. 数据湖与数据仓库
2.1 数据湖与数据仓库的现状
如今分析数据在多样性、数量和速度上都有了显著增长,传统数据仓库在应对这些增长时存在局限性。数据仓库难以经济高效地处理 IT 需提供的各种数据,存储和处理不断增长的数据量和速度也更加昂贵和复杂。相比之下,数据湖能够轻松且经济高效地处理几乎无限的多样性、数量和速度的数据,但它通常的组织方式对大多数用户,尤其是业务用户不太有用,且其中大部分数据缺乏治理。目前,数据湖几乎总是与数据仓库结合使用,数据仓库是业务用户主要的受治理数据消费点,而高级用户(如数据科学家)或其他系统则可直接访问数据湖中的大部分未受治理数据进行数据探索。
2.2 数据处理的转变
过去,大部分数据处理发生在数据仓库和/或
超级会员免费看
订阅专栏 解锁全文
171万+

被折叠的 条评论
为什么被折叠?



