阿里云大数据计算服务(MaxCompute)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
视频讲解如下 |
---|
【赵渝强老师】阿里云大数据存储计算服务MaxCompute |
一、 什么是MaxCompute?
随着数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(TB、PB、EB)级别。MaxCompute致力于批量结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务。
云原生大数据计算服务(MaxCompute)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。下图展示了MaxCompute的项目空间。
大数据计算服务MaxCompute(原名ODPS,Open Data Processing Service的简称)是一种快速、完全托管的EB级数据仓库解决方案,主要用于实时性要求不高的离线计算分布式处理场景。因此,大数据计算服务MaxCompute不能用于数据的实时处理场景中。
二、 MaxCompute的特点
MaxCompute具有以下的特点:
- 大规模分布式计算存储:MaxCompute适用于100GB以上规模的存储及计算需求,最大可达EB级别。
- 多种易用计算模型:MaxCompute支持SQL、MapReduce、UDF(Java/Python)、Graph、基于DAG的处理、交互式、内存计算、机器学习等计算类型及MPI迭代类算法。简化了企业大数据平台的应用架构。
- 强数据安全:MaxCompute已稳定支撑阿里全部数据仓库业务9年以上,提供多层沙箱防护、细粒度权限管理及监控。MaxCompute通过了独立的第三方审计师针对阿里云对AICPA可信服务标准中关于安全性、可用性和机密性原则符合性描述的审计。
- 低成本:与企业自建大数据平台相比,MaxCompute的计算存储更高效,可以降低30%至50%的采购于运维成本。
- 免运维:基于MaxCompute的Serverless无服务器的设计思路,用户只需关心作业和数据,而无需关心底层分布式架构及运维。
- 极致弹性扩展:MaxCompute提供按量付费模式下的作业级别的资源管理。用户无需受困于资源扩展难题,系统会自动扩展计算、存储、网络等资源,最大程度地节省成本。
三、 MaxCompute的体系架构
在使用MaxCompute之前,首先需要对MaxCompute的体系架构以及其中涉及到的相关术语要有一定的了解。这对于掌握并使用MaxCompute非常的重要。阿里云大数据计算服务MaxCompute的体系架构是构建在阿里云的飞天操作系统之上的大数据计算引擎。MaxCompute的整体架构体系如下图所示。
MaxCompute由四部分组成,分别是计算与存储层(MaxCompute Core)、逻辑层 (MaxCompute Server)、接入层 (MaxCompute FrontEnd)以及客户端 (MaxCompute Client)。