AWS云S3+Glue+EMRonEC2+ReadShift-优快云博客

Amazon S3（Amazon Simple Storage Service）即亚马逊简单存储服务，是 AWS（Amazon Web Services）提供的一种对象存储服务，在大数据领域被广泛使用。以下是关于它的详细介绍：

基本概念

Amazon S3 主要用于存储和检索任意数量的数据。这里的数据以对象（Object）的形式存在，每个对象由数据本身、键（Key，类似于文件名，用于唯一标识对象）和元数据（Metadata，如文件大小、创建时间、自定义标签等信息）组成。对象被存储在存储桶（Bucket）中，存储桶可以看作是存放对象的容器，它有一个在全球范围内唯一的名称，用户可以创建多个存储桶，并对存储桶和其中的对象进行管理。

主要特点

高持久性：Amazon S3 设计目的是为了实现数据的高持久性，承诺提供 99.999999999%（11 个 9）的对象持久性。这意味着数据丢失的可能性极低，它通过在多个设施和多个设备上自动存储数据的多个副本，来确保即使在出现硬件故障、自然灾害等意外情况时，数据也不会丢失。
无限可扩展性：S3 能够存储几乎无限量的数据，无论是少量的文件还是 PB 级甚至 EB 级的海量数据，都可以轻松存储。用户不需要担心存储容量的限制，并且可以根据实际存储需求自动扩展。
高可用性：具有较高的可用性，能够保证用户可以随时访问存储的数据。AWS 在全球分布有多个区域（Region）和可用区（Availability Zone），用户可以选择将数据存储在离自己较近或符合业务需求的区域，同时，S3 会在可用区内自动复制数据，以保障数据的高可用性。
安全可靠：提供了多种安全功能，包括身份验证（通过 AWS 访问密钥进行用户身份验证）、访问控制（可以使用访问控制列表 ACL 和桶策略来管理对存储桶和对象的访问权限）、数据加密（支持静态加密，包括 S3 托管密钥 SSE - S3、AWS Key Management Service 托管密钥 SSE - KMS 以及客户管理密钥 CSE - CKM）等，确保数据的安全性。
灵活性：支持各种类型的数据存储，包括文本文件、图像、视频、备份数据、日志文件、数据库转储等。并且提供了丰富的 API（Application Programming Interface），可以通过编程方式与 S3 进行交互，方便集成到各种应用程序和工作流程中。

应用场景

数据湖：作为构建数据湖的基础存储，用于集中存储来自不同数据源（如业务系统数据库、物联网设备、移动应用等）的结构化、半结构化和非结构化数据，以便后续进行数据分析、机器学习等操作。例如，电商公司可以将用户订单数据、商品信息、用户行为日志等各种数据都存储在 S3 中，然后通过大数据分析工具进行深入挖掘，了解用户购买行为和偏好。
数据备份与存档：适合长期保存不经常访问但需要保留的数据，如企业的历史交易记录、医疗记录、法律合规文件等。S3 提供了不同的存储级别（如标准存储、标准 - infrequent Access（标准 IA）、One Zone - Infrequent Access（单区 IA）、Glacier、Glacier Deep Archive 等），用户可以根据数据的访问频率和保留期限，选择成本最优的存储级别。
内容分发：可以与 Amazon CloudFront（内容分发网络 CDN）结合使用，用于快速分发网站内容、软件安装包、视频流等。CloudFront 会在全球的边缘位置缓存 S3 中的内容，使用户能够从离自己最近的位置获取数据，提高访问速度和用户体验。
大数据处理：与 AWS 上的其他大数据服务（如 AWS Glue、Amazon EMR 等）紧密集成。例如，Amazon EMR 集群可以直接读取和处理存储在 S3 中的数据，进行大规模的数据处理和分析任务，如日志分析、数据清洗、机器学习模型训练等。