一、什么是大数据

一种规模大到在获取、存储 、管理、分析方面大大超出了传统数据库 软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理 (MPP)数据库 、数据挖掘、分布式文件系统 、分布式数据库 、云计算平台 、互联网和可扩展的存储系统 。
二、大数据的基本特征
数据量大(Volume):第一个特征是数据量大,包括采集、存储和计算的量都非常大。
类型繁多(Variety):第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络 日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高 的要求。
价值密度低(Value):第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物 联网的广泛应用,信息感知无处不在,信息海量,但价值 密度较低,如何结合业务逻辑并通 过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
速度快时效高(Velocity):第四个特征数据增长速度快,处理速度也快,时效性要求高。
数据是在线的(Online)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。
类型繁多(Variety):第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络 日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高 的要求。
价值密度低(Value):第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物 联网的广泛应用,信息感知无处不在,信息海量,但价值 密度较低,如何结合业务逻辑并通 过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
速度快时效高(Velocity):第四个特征数据增长速度快,处理速度也快,时效性要求高。
数据是在线的(Online)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。
三、大数据的数据单位
按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。(进率2^10)

本文深入介绍了大数据的基础知识,包括其特征、数据单位、数据结构和计算模式,如批处理计算、流式计算、迭代计算和交互式计算。重点探讨了大数据处理的关键技术,如MapReduce、Spark以及分布式文件系统和数据库。此外,还概述了大数据的生命周期,从数据采集、存储管理到分析与挖掘,以及可视化处理。文章还提及了大数据技术生态和典型的大数据处理系统。
最低0.47元/天 解锁文章
341

被折叠的 条评论
为什么被折叠?



