云计算与大数据期末考点

本文详细探讨了云计算和大数据的各个方面,从云计算的定义、服务模式和部署模式,到大数据的基本概念、4V特征及其在精准营销等领域的应用。同时,介绍了虚拟化技术的原理、优势与类型,以及与云计算的关系。此外,还涵盖了OpenStack和Docker等关键平台,以及Hadoop的分布式计算框架。最后,文章提到了云计算仿真的重要性和CloudSim的特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一章 云计算概述

  1. 云计算的定义:云计算是一种无处不在的、便捷的、通过互联网访问的、可定制的IT 资源共享池,是一种按使用量付费的模式。它能够通过最少量的管理或与服务供应商的互动实现计算资源的迅速供给和释放。
  2. 云计算多层含义:1)用户的公共性。2)设备的多样性。3)商业模式的服务性。4)提供方式的灵活性。
  3. 云计算的特点:1)具有大规模并行计算能力。2)资源虚拟化和弹性调度。3)数据量巨大并且增速迅猛。4)高可靠性,通用性,高性价比。
  4. 云计算技术发展背景:1)飞速发展的互联网2)万维网的发明与发展3)信息产业的发展演进4)云计算的提出。
  5. 典型的云计算基础架构(了解):1)GFS是建立在集群之上的分布式文件系统2)MapReduce是分布式并行编程模型3)BigTable是分布式大规模数据看管理系统。
  6. 云计算的主要服务模式:1)基础设施即服务(IaaS)2)平台即服务(Paas)3)软件即服务(SaaS)。【写英文即可】
  7. 三种服务模式之间的关系:1)从用户体验角度分析:从用户体验角度而言,他们之间关系是独立的,因为其各自面对的是不同类型的用户。2)从技术角度分析:某一层次可以单独完成一项用户的请求而不需要其他层次为其提供必要的服务和支持。
  8. 云计算的主要部署模式:(简答)1)公有云:面向互联网大众的云计算服务2)私有云:面向企业内部的云计算平台3)混合云:混合了私有云和公有云4)联合云:联合多个云计算服务提供商的云基础设施,向用户提供更加可靠、优惠的云服务,主要针对公有云平台。
  9. 云计算是工业化部署、商业化运作的大规模计算能力,是一种新的、可商业化的计算和服务模式,即计算能力像水、电、煤气一样,按需分配使用。
  10. 典型的云计算产品:Amazon的AWS、Windows Azure Platform、IBM蓝云解决方案、阿里云
  11. 安全性成为关键:云计算安全或云安全是指一系列用于保护云计算数据、应用和相关结构的策略、技术和控制的集合,属于计算机安全、网络安全的子领域,或更广泛地说属于信息安全的子领域。

第二章 大数据技术概述

  1. 大数据的基本概念:大数据是现有数据库管理工具和传统数据处理应用方法很难处理的大型、复杂的数据集,大数据技术的范畴包括大数据的采集、存储、搜索、共享、传输、分析和可视化等。
  2. 大数据产生的原因:互联网、视频网站、移动互联网、物联网、车联网、GPS、医学影像、安全监控、金融、电信等众多领域都在疯狂产生着大量的数据,这些数据不仅使世界充斥着比以往更多的信息,而且由这些数据产生出了“大数据”这个如今尽人皆知的概念。
  3. 大数据奇数产生的原因:首先源于互联网企业对于日益增长的网络数据分析的需求。
  4. 第四范式:第一范式是实验;第二范式是理论;第三范式是计算;第四范式是数据。
  5. 云计算与大数据的关系:云过算与天数据是一对相辅相成的概念,它们描述了面向数据时代信息技术的两个方面;云计算侧重于提供资源和应用的网络化交付方法;大数据侧重于应对巨大的数据量所带来的技术挑战。
  6. 大数据的4V特征:(简答)
  • 规模性:大数据需要采集、处理、传输的数据量大;处理 PB级的数据是比较常态的情况。企业内部的经营交易信息,网络世界中的商品、物流信息,人与人的交互信息、位置信息等都是大数据的主要来源。
  • 多样性:大数据的种类多、复杂性高;大数据有不同格式,有结构化的关系型数据,有半结构化的网页数据,还有非结构化的视频音频数据。而且这些非结构化数据广泛存在于社交网络、物联网、电子商务之中,其增长速度比结构化数据快数十倍。
  • 高速性:大数据需要频繁地采集、处理并输出;因为数据会存在时效性,需要快速处理并得到结果。如一些电商数据,如果当天的信息不处理,就将会影响到很多需要立即做出的商业决策。要达到立竿见影而非事后见效,实现实时获取需要的信息,1秒是临界点,即对于很多实时大数据应用而言,数据必须要在1秒钟内进行处理,否则处理结果就是过时和无效的。
  • 价值密度低:大数据不经过相应的处理则价值较低。挖掘大数据的价值类似手沙里淘金。以视频为例,一个一小时的监控视频数据,可能有用的数据只有一两秒。如何通过强大的算法更迅速地完成数据的价值 “提纯” 是目前大数据技术研究的重要课题。
  1. 大数据的主要应用:通过用户行为分析实现精准营销是大数据的典型应用。 1)互联网企业可以应用大数据技术 ;2)智能电网可通过大数据技术对用户的用电数据进行监测;3)车联网应用大数据技术; 4)医疗大数据。
  2. 大数据的关键技术:(简答)
  • 大数据预处理技术:a.数据采集:ETL是利用某种装置,从系统外部采集数据并输入到系统内部的一个接口;b.数据存取:关系数据库,NoSQL, SQL 等;c.基础架构支持:云存储,分布式文件系统等;d.计算结果展现:云计算,标签云,关系图等。
  • 大数据存储技术:应同时满足以下三点要求:a.存储基础设施应能持久和可靠地存储数据;b.提供可伸缩的访问接口供用户查询和分析海量数据;c.对于结构化数据和非结构化的海量数据要能够提供高效的查询、统计、更新等操作。
  • 大数据分析技术:a.数据处理:自然语言处理技术;多媒体内容识别技术;图文转换技术;地理信息技术等。b.统计和分析:A/B test;top N 排行榜,地域占比,文本情感分析技术,语义分析技术等。c.数据挖掘:关联规则分析,分类,聚类等。d.模型预测:预测模型;机器学习;建模仿真;模式识别技术等。
  • 大数据计算技术:大数据计算技术可分为批处理计算和流处理计算。a.批处理计算主要操作大容量、静态的数据集,并在计算过程完成后返回结果,适用于需要计算全部数据后才能完成的计算工作;b.流处理计算会对随时进入的数据进行计算,流处理计算无须对整个数据集执行操作,而是对通过传输的每个数据项执行操作,处理结果立刻可用,并会随着新数据的抵达继续更新结果。

第三章 虚拟化技术

  1. 虚拟化的概念:虚拟化是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。
  2. 虚拟化技术的概念:虚拟化技术是模拟真正的计算机资源。
  3. 虚拟化技术的作用:虚拟化技术可以实现大容量、高负载或者高流量设备的多用户共享,每个用户可以分配到一部分独立的、相互不受影响的资源。每个用户使用的资源是虚拟的,相互之间都是独立的,虽然这些数据有可能存放在同在一台物理设备中。使用虚拟化技术可以将很多零散的资源集中到一处,而使用的用户则感觉这些资源是一个整体。使用虚拟化技术可以动态维护资源的分配,动态扩展或减少某个用户所使用的资源。
  4. 虚拟化技术的分类:(简答)
  • 网络虚拟化:网络虚拟化将网络资源进行整合,简单来说,就是将硬件与软件的网络设备资源,以及网络功能整合为一个统一的、基于软件可管理的虚拟网络。网络虚拟化是一种 包含至少部分是虚拟网络连接的计算机网络。
  • 存储虚拟化 :存储虚拟化,即整合所有存储资源为一个存储池,对外提供逻辑存储接口,用户通过逻辑接口进行数据的读写,不论有多少个硬件存储设备,对外看到的只有一个。
  • 服务器虚拟化 :也称为平台虚拟化,是将服务器物理资源抽象成逻辑资源,让一台服务器变成几台甚至上百台相互隔离的虚拟服务器,用户不再受限于物理上的界限,实现CPU、内存、磁盘、VO 等硬件变成可以动态管理的 “资源池”。
  • 操作系统虚拟化:操作系统虚拟化是指在同一操作系统上,同时运行单个或者多个独立的用户,他们都有自己的运行空间。每个用户都只能运行自己权限范围内的应用,每个用户都相互不受影响。每个用户可以通过远程桌面访问自己的资源,但共享同一个操作系统。
  • 服务虚拟化:服务虚拟化是一种虚拟的应用,它与硬件无关,为软件实现。服务虚拟化对终端用户来说是隐藏的,简单来说就是通过虚拟化提供相应的服务。
  • 桌面虚拟化:桌面虚拟化是指将计算机的终端系统(也称为桌面)进行虚拟化,以达到桌面使用的安全性和灵活性。
  • 应用虚拟化:应用虚拟化是指同一个应用可以在不同的 CPU 体系架构、不同的操作系统上正常地运行。
  • 用户体验虚拟化 :用户体验虚拟化,有时也称用户虚拟化,是指在不同的设备中,如笔记本、平板电脑或手机,用户所看到的内容或者界面都是一样的,在其中一台设备中的修改,在另一台设备上看到的配置或修改结果是一致的。用户的相关信息与应用的配置都会被同步到相应的用户设备中。
  1. 虚拟化技术的优势 :
  • 减少物理资源的投入,节约成本。当用户需要不同的操作系统或更多的计算机设备资源时,直接通过 VMM 添加几个不同的操作系统即可,不再需要使用时可直接关闭或者删除相应的资源。
  • 虚拟数据资源迁移方便。可以很方便地将虚拟数据资源(一般为虚拟机生成的数据)迁移到其他数据中心,而虚拟数据资源不受影响。
  • 提高物理资源的使用率。使用虚拟化技术,可以使多台服务器部署到同一台物理设备上,这样可以提高这台物理设备的使用率,显著减少成本开销。
  • 更加环保,节省能源。通过应用虚拟化技术,可以减少物理硬件的投入,从而降低物理硬件所使用的电能以及占地空间,从而更加的环保。
  • 易于自动化维护与操作,减少维护成本。虚拟化技术通过软件的方式来模拟物理设备,只要是软件的方式实现的虚拟资源,就可以通过相应的接口进行自动地维护与管理,可以提高工作效率,减少维护成本。
  • 数据安全更有保障。每个虚拟化出来的设备在物理设备中都会有相应的文件产生,管理员只需要对数据进行相应的备份,并定期管理,就可以保证这些数据的安全。
  1. 虚拟化技术的劣势:1)目前业界没有统一的虚拟化技术标准与平台,没有开放的协议。2)如果没有对数据进行备份,应用虚拟化技术会存在一定的风险。3)虚拟数据中心的迁移,特别是对在线服务的迁移,对用户影响巨大。
  2. 虚拟化技术与云计算关系:云计算提供服务,虚拟化技术是云计算的技术支持。1)云计算是基于互联网的相关服务的增加、使用和交付模式,在云计算中,通过互联网提供动态、易扩展的虚拟化资源。2)虚拟化的主要功能是把单个资源抽象成多个给用户使用,而云计算则是帮助不同部门(通过私有云)或公司(通过公共云)访问一个自动置备的资源池。
  3. 虚拟化技术的原理:虚拟机的原理、CPU虚拟化原理、内存虚拟化原理以及网络虚拟化原理。
  4. 虚拟化环境的搭建:(简答)1)启动VMware Workstation。2)创建虚拟机并选择已经准备好的ISO镜像(在Windows平台中,以.iso结尾的镜像一般称为ISO镜像。3)启动后出现的安装界面,选中默认的图形化安装选项“Graphical install”。
  5. 克隆虚拟机:1)启动虚拟机。在VMware Workstation管理窗口中,选择:VM(虚拟机)->Manage(管理)->Clone(克隆)。2)选择Clone(克隆)之后,选择进行全克隆。3)选择Create a full clone(全克隆模式)后单击“下一步”按钮。4)克隆完成后就可以对克隆环境进行测试了。这时会发现克隆的虚拟机的所有配置与克隆之前的版本是一模一样的。如果在克隆之前的IP地址是固定的,请对克隆后的IP地址进行更新,否则可能会导致无法正常通信的情况。
  6. 虚拟机做快照:1)启动虚拟机,选择虚拟机->VM(虚拟机)->Snapshot(快照)->Take Snapshot(拍照)。2)在“Take Snapshot”对话框中,将快照名称设置为“Snapshotl”,单击“TakeSnapshot”按钮进行拍照。3)选择VM(虚拟机)->Snapshot(快照)->Snapshot Manager(快照管理),可查看拍照结果。4)对虚拟机进行一系列的操作,任何操作都行。5)选择VM(虚拟机)->Snapshot(快照)->Snapshot Manager(快照管理),选择名为“snapshot1”的快照,然后单击“GoTo”命令,进行快照恢复。6)快照恢复后示,可见此时的虚拟机环境则与最初拍照时的环境一模一样,没有任何变化。

第四章 数据中心与云存储技术

  1. 数据中心的分类:1)企业数据中心:企业数据中心按规模划分为部门级数据中心、企业级数据中心、互联网数据中心以及主机托管数据中心等。2)互联网环境下的数据中心的作用就是加强互联网数据的处理速度和效果。
  2. 云计算、大数据时代的数据中心发展趋势:规模化、虚拟化、绿色化、集中化和低成本。
  3. 云存储系统的结构:存储层、基础管理层、应用接口层和访问层。
  4. 云存储的实现基础:(论述)
  • 宽带网络:真正的云存储系统将会是一个多区域分布、遍布全国、甚至于遍布全球的庞大公用系统,使用者需要通过ADSL、DDN等宽带接入设备来连接云存储。
  • Web2.0技术:Web 2.0 技术的核心是分享。只有通过Web 2.0技术,云存储的使用者才有可能通过PC、手机等多种设备,实现数据、文档、图片和音视频等内容的集中存储和共享。
  • 应用存储:云存储不仅仅是存储,更多的是应用。应用存储不仅具有数据存储功能,还具有应用软件功能,可以看作是服务器和存储设备的集合体。
  • 集群技术和分布式文件系统从云存储的概念可知,任何一个单点的存储系统都不是云存储,云存储是由多个存储设备构成的,不同存储设备之间就需要通过集群、分布式等技术,实现多个存储设备之间的协同工作,多个存储设备可以对外提供同一种服务。
  • CDN、P2P技术、数据压缩技术、重复数据删除技术、数据加密技术:CDN内容分发系统的基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输得更快、更稳定。
  • 存储虚拟化技术、存储网络化管理技术:云存储中的存储设备数量庞大且大多分布在不同地域,如何实现不同厂商、不同型号甚至于不同类型(如 FC(Fibre Channel)存储和 IP 存储)的多台存储设备之间的逻辑卷管理、存储虚拟化管理和多链路冗余管理是一个巨大的难题,为了解决这个问题,简化用户操作,需要存储虚拟化技术来实现。
  1. 云存储的特性:1)可靠性2)安全性3)管理方便4)可扩展性
  2. 云存储的发展关注点:1)安全性2)便携性3)性能和可用性4)数据访问性

第五章:并行计算与集群技术

  1. 集群的基本概念:(简答)集群是一组独立的计算机(节点)的集合体,节点间通过高性能的网络相连接,各节点除了作为一个单一的计算资源供用户使用外,还可以协同工作,并表示为一个单一的、集中的计算资源,供并行计算任务使用。
  2. 集群系统的设计要考虑的五个问题:1)可用性 2)单一系统映像SSI 3)作业管理 4)并行文件系统PFS 5)高效通信
  3. 集群系统按功能和结构可以分为如下四类:(选择)1)高可用性集群系统2)负载均衡集群系统3)高性能集群系统4)虚拟化集群系统
  4. 并行计算的关键技术主要包括:1)体系结构2)算法设计与分析3)实现技术4)应用
  5. 一个简单的MPI程序实现:
#include “mpi.h”
#include <stdio.h>
int main(int argc, char *argv[])
{
    MPI init(&argc, &argv);
    printf("hello world\n)";
    MPI Finalize();
    return 0;
}

第六章:OpenStack——功能强大的IaaS平台

  1. OpenStack架构主要分为三个部分:控制,计算,网络
  2. 模块:
  • DASHBOARD:仪表盘服务模块,项目名是Horizon,用于给用户提供基于网页管理的界面,以便用户可以更方便、更直观地管理OpenStack平台。
  • COMPUTE:计算服务模块,项目名为Nova,是OpenStack不可缺少的核心模块,为用户提供计算平台,主要负责与虚拟化平台的接口对接。
  • BLOCK STORAGE:块存储服务模块,项目名为Cinder,用于整合OpenStack平台中所有存储资源为一个存储池,并对外提供统一的存储服务API接口,外界看到的就只有一个巨大的存储块。
  • NETWORKING:网络服务模块,项目名为Neutron,在OpenStack中负责整合所有物理与虚拟的网络资源,并对外提供统一的网络配置接口,用于对OpenStack平台的网络互联环境的搭建与配置。与Nova一样,Neutron也是OpenStack的核心模块。
  • IMAGE SERVICE:镜像服务模块,项目名为Glance。属于OpenStack的核心模块,用于管理镜像,给虚拟机提供镜像服务。
  • OBJECT STORAGE:对象存储服务模块,项目名为Swift。与Cinder类似,Swift在OpenStack平台中也是一种存储服务,可以存放与获取各种数据,如元数据、配置数据等。同时,也可以将备份数据存放到Swift中,包括镜像服务的存放也可以存放到Swift中,在获取数据时,Glance再从Swift获取出来。甚至Cinder块存储的备份也是可以存放到Swift中。
  • IDENTITY SERVICE:身份认证服务模块,项目名为Keystone。也是OpenStack的核心模块,主要用于对用户或请求的认证与授权服务。
  • MONITOR:监控计量服务模块,项目名为Ceilometer,此服务模块负责整个平台各个模块运行状态的检测与监控、统计与计费等。

第七章:Docker——用途广泛的容器技术

  1. Docker概述:Docker 中有三大核心概念,即镜像(Image),容器(Cotainer),仓库(Repository)其中容器由镜像支撑,镜像从仓库分发,最终通过预先设定的命令构建成人们所见到的快速部署的、多样的应用。
  2. Docker的安装:测试docker是否安装成功-$docker run --rm hello -world;
  3. Docke服务要点:1)Docker服务分为客户端和服务端两端2)当直接运行一个镜像时,首先从本地仓库查找,若无则从Docker Hub公共仓库查我3)此容器运行仅为显示,若要进行交互式的访问容器则通过docker run -it ubuntu bu实现。
  4. 什么是Docker镜像:要想更深入地了解 Docker,首先要了解镜像的原理,而这其中最重要的概念就是镜像层.像层依赖文件系统(File Systems)、写时复制(Copy-on-Write )、联合挂越(Union Mounts)等一系列的底层技术。
  5. 镜像层分为四层:三层只读层,一层读写层。当Docker第一次启动一个容器时,初始的读写层是空的。
  6. 发布和获取Docker镜像:可以通过将镜像推送到Docker Hub或者用户自己的私有仓库中来实现。

第八章:Hadoop——分布式大数据开发平台

  1. Hadoop的体系结构:1)HDFS是Hadoop是分布式文件储存系统;2)MapReduce是一个分布式计算框架,是Hadoop的一个基础组件。
  2. Hadoop集群的架构:Hadoop集群的逻辑架构采用的是主从架构(Master/Slave架构)。
  3. 什么是分布式文件系统:分布式文件系统是一种基于网络的文件系统,它将文件和目录分布在多台计算机上,通过网络连接进行数据交换和同步。它通过分散存储文件和元数据来提高容量和可用性,并通过多节点的负载均衡来提高性能。分布式文件系统还具备动态可扩展性、高可靠性、高可用性和易维护性的特点。
  4. HDFS的架构及读写流程:1)HDFS的架构:HDFS是一个典型的主从(Master/Slave)架构。2)HDFS的读写流程:a.文件读取b.文件写入。
  5. Wordcountd的处理过程:(简答)
  • 分片、格式化数据源:InputFormat主要有两个任务,一个是对源文件进行分片,并确定Mapper的数量;另一个是对各分片进行格式化,处理成<key,value>形式的数据流并传给Mapper。
  • Map过程:Mapper接收<key,value>形式的数据,并处理成<key,value>形式的数据,具体的处理过程可由用户定义。
  • Combiner过程:每一个map()都可能会产生大量的本地输出,Combiner()的作用就是对map()端的输出先做一次合并,以减少在Map和Reduce结点之间的数据传输量,提高网络I/O性能,是MapReduce的一种优化手段之一。
  • Shuffle过程:Shuffle过程是指从Mapper产生的直接输出结果,经过一系列的处理,成为最终的Reducer直接输入数据为止的整个过程,这一过程也是MapReduce的核心过程。整个Shuffle过程可以分为两个阶段,Mapper端的Shuffle和Reducer端的Shuffle。
  • Reduce过程:Reducer接收<key,{value list}>形式的数据流,形成<key,value>形式的数据输出,输出数据直接写入HDFS,具体的处理过程可由用户定义。

第十一章:云计算仿真

  1. 为什么要使用CloudSim:

对于技术研发人员来说,大规模集群的资源调度、负载均衡、集群平台,集群拓扑等研究如果在物理机上进行,需要大量的服务器、网络设备资源,实验环境的准备、实验数据的采集、实验方案的调试很不方便、成本很高,需要先在仿真实验平台上进行实验。

对云应用服务的测试也会比较麻烦,主要表现在以下两方面。

  • 应用服务商直接将应用部署到云平台上之后再进行测试,无疑会带来额外的成本开销。一旦应用程序接入云平台就必须要缴纳相应的费用,这样在应用没有任何经济效益的情况下就产生了额外的费用,对于SaaS提供商来说是不经济的。
  • 实际运行的云平台环境(IaaS、PaaS)是不可控的,整个互联网环境时而拥塞,时而清闲,从而导致了云平台资源使用的无规律性和不可再现性,不利于应用的重复测试。
  1. CLoudSim 的特点:
  • 能够在一台PC上建模和仿真大规模云计算基础设施,如数据中心、物理主机等。
  • 支持用户任务以及服务代理的建模和仿真。
  • 支持对云计算环境中的网络环境进行建模。
  • 有效地利用虚拟化引擎,帮助在数据中心节点上创建、管理和销毁多个虚拟节点。
  • 可以灵活地在基于时间共享和空间共享的虚拟化策略之间进行切换。
  • 支持对云数据中心的能耗行为进行建模和仿真。
  • 可以方便地建立云平台资源的价格策略,包括存储价格、带宽价格等。
  • 能够模仿多个云厂家之间进行透明交易,包括任务迁移、存储迁移、价格协商等。
  1. CloudSim的模型使用场景:1)云计算中心的能耗中心;2)云数据中心的经济模型(基础设施层,服务层)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值