目录
一、大数据概述
(一)数据和信息
-
数据是一种可以被鉴别的,对客观事情进行记录的符号。(数据是构成信息的基本单位)
-
常见的数据类型:文本、图片、音频、视频等。
-
信息:数据的有序排列组合而成,传达概念方法。
(二)数据的组织形式和生命周期:
-
数据的组织形式主要包括:文件和数据库。
-
数据的生命周期:数据从创建->修改->发布利用->归档/销毁的整个过程。
-
文件在计算机内部是以文件系统的方式进行管理。
-
在大数据环境下,数据生命周期的6个阶段:
数据采集--存储--处理--传输--交换--销毁
-
数据存储和数据处理分别在计算机哪些部件上进行?
答:数据存储:硬盘驱动器(HDD)、固态驱动器(SSD)、随机存储器(RAM)、缓存
数据处理:中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DS)、专用协处理器
-
传统的数据库有哪些类型:
答:关系型、层次型、网络型(、平面文件、对象)
(三)数据转化为信息的过程:
数据清洗--数据管理--数据分析
(四)数据的价值
(五)大数据的内涵
-
数据层面:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
-
技术层面:使用分布式技术完成海量数据处理,以得到数据背后蕴含的价值
-
数据单位:
(六)大数据的5V特性
(七)数据产生方式经历的三个阶段
-
运营式系统阶段:被动产生
-
用户原创内容阶段:主动产生
-
感知式系统阶段:自动产生
(八)信息化浪潮的标志及解决问题
-
个人计算机——解决信息存储问题
-
互联网——解决信息传输问题
-
物联网、大数据、云计算——解决信息爆炸问题
(九)大数据对科学研究的影响
在科学研究上,先后经历了实验、理论、计算和数据四种范式
-
计算科学和数据密集型科学的区别:
-
计算科学和数据密集型科学都是利用计算机进行计算
二者区别:
-
计算科学先提出可能的理论,再搜集数据,然后通过计算验证
-
数据密集型科学先有大量的已知数据,然后通过计算得到之前未知的理论
(十)信息科技为大数据时代提供技术支撑
存储能力、传输能力、计算能力
二、大数据核心技术概述
(一)大数据核心技术——分布式技术
1.Apache Hadoop技术栈
开源的分布式处理技术栈
-
基于Hadoop HDFS的分布式数据存储技术(Hadoop Distributed File System)
-
基于Hadoop YARN的分布式资源调度技术(Yet Another Resource Negotiator)
-
基于Hadoop MapReduce的分布式数据计算技术
2.Google搜索引擎的核心任务:
-
数据采集、数据搜索
3.GFS
-
master负责创建分块句柄,维护元数据,为client提供用于读写的相关元数据,指导分块服务器工作,查看分块服务器状态(创维提供指导查看)
-
chunkserver负责存储数据的分块,分块的迁移,直接与client进行主数据的通信
-
只能有一个master,可以有若干个chunkserver
-
client读写数据需要与master和chunkserver服务器结点交互
-
GFS解决复杂工程问题的设计细节: 数据校验和的作用:保证数据的完整性和准确性
减少元数据的目的:减少存储空间、提高性能、减少网络传输成本、提高隐私和安全性、简化数据管理和维护、改善数据质量
-
一份文件被分为多个固定大小的chunk(默认64M),每个chunk有全局唯一的文件句柄 -- 一个64位的chunk ID,每一份chunk会被复制到多个chunkserver(默认值是3)