第八章云计算原理与技术_云计算实现海量数据的是数据的存储利用-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_45036075/article/details/103302321

本文介绍了云计算的基本概念，包括NIST提出的4点定义和3种服务模式、4种部署方式。重点讨论了云计算的关键技术，如IaaS、PaaS、SaaS、数据存储、计算模型、资源调度和虚拟化技术。同时，阐述了Google云计算平台的GFS、Chubby、BigTable和MapReduce，以及Amazon的S3和SQS服务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第八章云计算原理与技术
一、云计算概述
云计算:指同伙网络以按需、易扩展的方式获得所需要的服务，即随时随地只要能上网就能使用各种各样的服务，这种服务可以是IT和软件、互联网相关的，也可以是其他的服务。
目前比较权威的云计算定义是美国国家标准技术研究院NIST提出的，包括以下4点:
1)云计算是一种利用互联网实现随时随地、按需、便捷地访问共享资源池（如计算设施、存储设备、应用程序等）的计算模式。
2)云计算模式具有5个基本特征:按需自助服务、广泛的网络访问，共享的资源池、快速弹性能力、可度量的服务。
3)云计算有3种服务模式:软件即服务（SaaS）、平台即服务（PaaS）、基础设施即服务（IaaS）
4)云计算有4种部署方式:私有云、社区云、公有云、混合云。
1.IaaS
虚拟化技术:分离传统的软硬件资源
2.PaaS
应用平台，连接上下层，既要为SsaS层提供可靠的分布式编程框架，又要为IaaS层提供资源调度、数据管理、屏蔽底层系统的复杂等支持。
3.SaaS
应用软件，软件服务。
二、云计算关键技术
1.体系结构:
1)核心服务层:分为三个子层IaaS、PaaS、SaaS
2)服务管理层:为核心服务层的可用性、可靠性、安全性提供保障。
3)用户接口访问层:Web门户是访问接口的另一种模式。
2.数据存储
云计算环境下的数据存储，通常称为海量数据存储。大数据存储与传统的数据库服务在本质上有着较大的区别，传统的关系数据库中强调事物的ACID特性，即原子性、一致性、隔离性和持久性，对数据的一致性的严格要求使其在很多分布式场景中无法应用。在这种情况下，出现了基于BASE特性的新型数据库，即只要求满足basically available（基本可用）、soft sate(柔性状态)和eventually consistent(最终一致性）。
面对这些挑战，以Google为代表的许多公司都推出了自己的解决方案。Bigtable是Google早期开发的数据库系统，它是一个多维稀疏排序表，由方和列组成，每个存储单元都有一个时间戳，兴冲冲三维结构。不同的时间对同一个数据单元的多个操作形成数据的多个版本之间的由时间戳来区分。除了Bigtable外，Amazon的Dynamohe和Yahoo的PNTS也均为非常具有代表性的系统。Dynamo综合使用了键-值存储、改进的分布式哈希表、向量时钟等技术实现看一个完全的分布式、去中心化的高可用系统。这些方案被称为NoSQL，它具有以下几个特征：
1）模式自由
2）支持简易备份
3）简单的应用程序接口
4）最终一致性（或者说支持BASE特性不支持ACID）
5)支持海量存储
3.计算模型
云计算模型是一种可编程的并行计算框架，需要高扩展性和容错性支持。目前比较成熟的技术有MapReduce、Dravd.
MapReduce是Google提出的并行程序编程模型，运行于GFS（分布式文件存储系统）之上。MapReduce的设计思想在于将问题分而治之，首先将用户的原始数据进行分块，然后分别交给不同的Map任务去处理。Map任务输入中解析出键-值集合，然后对这些集合执行用户自行定义的Map函数得到的中间结果，并将该结果写入本地硬盘。Reduce任务从硬盘上读取数据之后会根据键值进行排序，将具有相同4键值的数据组织在一起。最后应用用户自定义的Reduce函数处理这些排好序的结果并输出最终答案。
4.资源调度
主要解决如何将资源最大化，让性能最佳，完成最快云计算平台的资源调度包括：异构资源管理、资源合理调度与分配。
5.虚拟化
云计算的发展离不开虚拟化技术。雄拟化技术可以将物理上:的单台服务器虚拟成逻辑上的多台服务器环境。可以修改单台雕拟机的分配CPU、内存空间、硬盘等，每台虚拟机逻辑上可以被单独作为服务器使用。通过这种分割行为，将闲置或处于低峰的服务器使用起来，使数据中心为云计算提供大规模资源，通过虚拟化技术实现基础设施服务的按需分配。虚拟化是laS层的重要组成部分，也是云计算的重要特点。
虚拟化的特点：1）资源共享 2）资源定制 3)细粒度资源管理
虚拟化技术成为实现云计算资源池化和按需服务的基础。
三、Google云计算原理
Google公司有一- 套专属的云计算平台，这个平台最初是为Google公司的搜索应用提供服务，现在已经护展到其他应用程序。Google 的云计算基础架构模式包括4个相互独立又紧密结合在.一起的系统: Google File System 分布式文件系统( GFS).分布式的锁机制Chubby.
Google开发的模型简化的大规模分布武数据库Big Table以及针对Google应用程序的特点提出的MapReduce编程模式。
1.GFS
网页搜索业务需要海量的数据存储，同时还需要满足高可用性、高可靠性和经济性等要求。为此，Google基于以下假设开发了分布式文件系统一一Google File System (GFS)。
1）硬件故障是常态，充分考虑到大量结点的失效问题，需要通过软件将容错以及自动恢复功能集成在系统中。
2）支持大数据集，系统平台需要支持海量大文件的存储，文件大小通常以吉字节计,并包含大量孙文件。
3) 一次写人、多次读取的处理模式，充分考虑应用的特性,增加文件追加操作,优化顺序读写速度
4）高并发性，系统平台需要支持多个客户端同时对某一个文件的追加写入操作,这些客户端可能分布在几百个不同的节点上，同时需要以最小的开销保证写入操作的原子性。
2.S3（只做存储）
Amazon S3 ( Simple Storage Service)是一款在线存储服务，在云计算环境下提供了不受限制的数据存储空间。用户可通过授权访问一个简单的Web服务界面来存储和获取Web.上任何地点的数据。AmazonS3提供了完全冗余的数据存储基础设施，用户可以将存储内容发送到Amazon EC2进行计算，调整大小或进行其他分析，Amazon S3负责数据的持久、备份、存档与恢复等可靠服务。
3. SQS（队列服务）
Amazon sQs ( Simple Queue Service)是面向消息的中间件( MOM)的云计算解决方案，而且不局限于某一种语言。Amazon sQS提供了可靠且可扩展的托管队列，用于存储计算机之间传输的消息。使用Amazon sQS可以在执行不同任务的应用程序的分布式组件之间移动数据。既不会丢失消息，也不要求各个组件始终处于可用状态。Amazon SQS是分布式队列系统，当应用程序中的一个组件需要生成供另一- 个组件使用的消息时，该系统可以让Web服务应用程序快速、可靠地对消息进行排队。队列是等待处理的消息的临时储存库。Amazon SQS提供以下主要功能：
1)冗余基础设施:确保将用户的消息至少传输一次，对消息高度并发访问，在发送和检索消息时具有高度可用性。
2)多个写人器和读取器:用户的系统的多个部分可以同时发送或接收消息。
3)每个队列的设置均可配置:并非用户的所有队列都要完全相同。
4)可变消息大小:用户的消息大小可高达262 144B (256 KB)。
5)访问控制:用户可以控制谁能从队列发送和收取消息。
6)延迟队列:延迟队列即用户对其设置默认延迟的队列，从而使所有排队消息的传送推迟一段时间。