大数据分析与云计算:数据密集型应用在云端的处理
1. 引言
大数据已成为当前和未来的研究前沿之一。Gartner将大数据定义为“高容量、高速度和高多样性的信息资产,需要具有成本效益的创新信息处理形式,以增强洞察力和决策能力”。大数据是由大量不同类型的数据集组成,使用现有的数据处理方法或传统的数据处理平台很难对其进行处理。
随着传感器网络、望远镜、科学实验和高通量仪器等多样化的数据来源,数据集呈指数级增长。现有的存储和分析数据的技术无法高效、令人满意地工作,从数据捕获、整理到数据分析和可视化都面临挑战。大数据改变了我们开展业务、管理和研究的方式,数据密集型科学应运而生,它被视为继经验科学、理论科学和计算科学之后的第四种科学范式。
2. 云计算与大数据
虚拟化技术的发展使超级计算变得更加容易获取和负担得起。云计算是使用这些虚拟计算机的方式,它是一种强大的大数据技术。云计算的名称源于系统图中用云形符号来抽象表示其复杂的基础设施,它将用户的数据、软件和计算委托给远程服务。
云计算不仅通过互联网提供应用程序和服务,还扩展到了基础设施即服务(如亚马逊EC2)和平台即服务(如谷歌App Engine和微软Azure)。云计算提供了一种类似公用事业的资源访问方式,具有按需付费的特点,还带来了云存储,为存储大数据提供了可能。云存储具有良好的扩展性和可伸缩性。
从消费者和生产者的角度来看:对于消费者而言,大数据是利用来自新的或不同来源的大型数据集,提供有关世界运行方式的有意义且可操作的信息;对于生产者来说,大数据是处理大型、多样化数据集所需的技术,生产者从数据的体积、种类和速度等方面来描述大数据。
大数据与云计算处理挑战
超级会员免费看
订阅专栏 解锁全文
975

被折叠的 条评论
为什么被折叠?



