大数据:规模与挑战
1. 大数据概述
大数据分析涵盖了对大规模数据集进行挖掘、分析和预测建模等广泛功能。随着信息的快速增长和技术的发展,全球的个人和企业获得了前所未有的机会,利用大规模分析来获取利润、开发新能力,并重新定义传统商业模式。
大数据的“大”是相对概念,一般来说,行业将数TB、PB甚至更大规模的数据视为大数据。大数据分析是指对大规模数据集进行分析,从简单的数据行数统计到复杂的机器学习算法应用都包含在内。
2. 数据的简要历史
- 信息时代的曙光 :大数据一直存在,例如美国国会图书馆拥有1.64亿件藏品。机械数据存储始于1880年Herman Hollerith发明的穿孔卡片,IBM推动了穿孔卡片的工业化应用。
- Alan Turing与现代计算 :1936年,Alan Turing发表论文,基于Kurt Gödel的不完备定理,为现代数字计算奠定了基础。
- 存储程序计算机的出现 :1948年,曼彻斯特大学开发的Manchester Small - Scale Experimental Machine(SSEM)引入了随机存取存储器(RAM)的概念,使计算机能够动态存储数据。
- 从磁设备到SSD :20世纪50年代初,IBM推出磁带,随后在1956年推出硬盘驱动器。早期硬盘容量小、体积大、成本高。固态硬盘(SSD)于20世纪50年代中期由IBM发明,相比硬盘,它使用非易失性存储器,数据检索速度更快。