大数据存储 - Azure 数据湖全解析
1. 理解 Azure 数据湖存储
在选择存储解决方案时,需要考虑要存储的数据量。根据数据量的不同,可从 Azure 提供的服务(如 Azure 存储、Azure SQL 或 Azure Cosmos DB)中选择不同的选项。此外,还有多种可作为虚拟机镜像的数据库(如 Cassandra 或 MongoDB),Azure 的生态系统非常丰富,能满足不同的需求。
然而,当存储的数据量没有上限,或者考虑到当今应用程序的特点,数据量增长极快,无法确定一个安全的上限时,就需要一种特殊的存储方式——数据湖。数据湖允许以自然格式存储数据,不对存储的信息施加任何结构。在 Azure 中,解决此类问题的方案是 Azure 数据湖存储(Azure Data Lake Store)。
2. Azure 数据湖存储基础
Azure 数据湖存储被称为超大规模的数据存储库,因为它在存储文件时没有任何限制。文件可以是任何格式、任何大小,并且可以存储不同结构的信息。这对于大数据分析来说是一个很好的模型,因为可以根据处理服务的需求来存储文件(有些服务喜欢少量大文件,有些则喜欢大量小文件,可按需选择)。而其他存储解决方案(如关系型、NoSQL 或图数据库)在存储非结构化数据时通常会有一些限制。
以下是 Azure 数据湖存储(AZDS)和 Azure 存储的对比:
| 对比项 | Azure 数据湖存储(AZDS) | Azure 存储 |
| ---- | ---- | ---- |
| 限制 | 无文件大小和数量限制 | 最大账户容量 500 TB,有文件最大大小限制 |
| 冗余 |
Azure 数据湖存储全解析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



