大数据导论期末复习知识汇总

目录

一、大数据概述

(一)数据和信息

(二)数据的组织形式和生命周期:

(三)数据转化为信息的过程:

(四)数据的价值

(五)大数据的内涵

(六)大数据的5V特性

(七)数据产生方式经历的三个阶段

(八)信息化浪潮的标志及解决问题

(九)大数据对科学研究的影响

(十)信息科技为大数据时代提供技术支撑

二、大数据核心技术概述

(一)大数据核心技术——分布式技术

1.Apache Hadoop技术栈

2.Google搜索引擎的核心任务:

3.GFS

4.Hadoop HDFS

5.Big Table

6.MapReduce

7.YARN——分布式资源调度技术

(二)大数据技术体系

1、Hadoop的优势:

2、大数据的产业:

三、大数据与云计算、物联网、人工智能

(一)云计算

(二)物联网

(三)人工智能

四、大数据技术

(一)数据采集与预处理

(二)数据存储与管理

(三)数据分析与处理

(四)数据可视化

(五)数据安全与隐私保护

五、大数据典型行业应用

推荐系统

推荐方法

六、大数据安全与数据开放共享

(一)大数据安全

(二)数据共享和数据开放


一、大数据概述

(一)数据和信息

  • 数据是一种可以被鉴别的,对客观事情进行记录符号。(数据是构成信息的基本单位)

  • 常见的数据类型:文本、图片、音频、视频等。

  • 信息:数据的有序排列组合而成,传达概念方法。

(二)数据的组织形式和生命周期:

  • 数据的组织形式主要包括:文件数据库

  • 数据的生命周期:数据从创建->修改->发布利用->归档/销毁的整个过程。

  • 文件在计算机内部是以文件系统的方式进行管理。

  • 大数据环境下,数据生命周期的6个阶段:

    数据采集--存储--处理--传输--交换--销毁

  • 数据存储和数据处理分别在计算机哪些部件上进行?

    答:数据存储:硬盘驱动器(HDD)、固态驱动器(SSD)、随机存储器(RAM)、缓存

              数据处理:中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DS)、专用协处理器

  • 传统的数据库有哪些类型:

    答:关系型、层次型、网络型(、平面文件、对象)

(三)数据转化为信息的过程:

数据清洗--数据管理--数据分析

(四)数据的价值

(五)大数据的内涵

  • 数据层面:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

  • 技术层面:使用分布式技术完成海量数据处理,以得到数据背后蕴含的价值

  • 数据单位:

(六)大数据的5V特性

(七)数据产生方式经历的三个阶段

  1. 运营式系统阶段:被动产生

  2. 用户原创内容阶段:主动产生

  3. 感知式系统阶段:自动产生

(八)信息化浪潮的标志及解决问题

  1. 个人计算机——解决信息存储问题

  2. 互联网——解决信息传输问题

  3. 物联网、大数据、云计算——解决信息爆炸问题

(九)大数据对科学研究的影响

科学研究上,先后经历了实验理论计算数据四种范式

  1. 计算科学和数据密集型科学的区别:

  • 计算科学数据密集型科学都是利用计算机进行计算

二者区别:

  • 计算科学先提出可能的理论,再搜集数据,然后通过计算验证

  • 数据密集型科学先有大量的已知数据,然后通过计算得到之前未知的理论

(十)信息科技为大数据时代提供技术支撑

存储能力、传输能力、计算能力

二、大数据核心技术概述

(一)大数据核心技术——分布式技术

1.Apache Hadoop技术栈

开源的分布式处理技术栈

  • 基于Hadoop HDFS的分布式数据存储技术(Hadoop Distributed File System)

  • 基于Hadoop YARN的分布式资源调度技术(Yet Another Resource Negotiator)

  • 基于Hadoop MapReduce的分布式数据计算技术

2.Google搜索引擎的核心任务:

  • 数据采集数据搜索

3.GFS

  • master负责创建分块句柄,维护元数据,为client提供用于读写的相关元数据,指导分块服务器工作,查看分块服务器状态(创维提供指导查看)

  • chunkserver负责存储数据的分块,分块的迁移,直接与client进行主数据的通信

  • 只能有一个master,可以有若干个chunkserver

  • client读写数据需要与masterchunkserver服务器结点交互

  • GFS解决复杂工程问题的设计细节: 数据校验和的作用:保证数据的完整性和准确性

    减少元数据的目的:减少存储空间、提高性能、减少网络传输成本、提高隐私和安全性、简化数据管理和维护、改善数据质量

  • 一份文件被分为多个固定大小的chunk(默认64M),每个chunk有全局唯一的文件句柄 -- 一个64位的chunk ID,每一份chunk会被复制到多个chunkserver(默认值是3)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值