大数据的程序设计模型(Programming models)
概述
程序设计模型是一种抽象或现有的机制或基础结构(an abstraction or existing machinery or infrastructure)。它是抽象的运行库和编程语言的组合,构成了一个计算模型。这个抽象级别可以是低级的,就像计算机中的机器语言一样。或者高级的,例如在高级编程语言中的Java。

如果大数据分析的基础设施是我们提到的分布式文件系统,那么大数据的程序设计模型应该能够使分布式文件系统中的操作具有可编程性。我们的意思是,能够编写计算机程序,在使用大数据的分布式文件系统上高效地工作,使处理所有潜在问题变得容易。
要求&特点
基于我们到目前为止讨论的所有内容,让我们描述一下大数据编程模型的需求。
-
首先,这样的大数据编程模型应该支持大数据分割等常见的大数据操作。
这意味着对计算机内存中的数据进行分区和放置,以及稍后同步数据集的模型。对数据的访问应该以一种快速的方式实现。它应该允许快速分布到机架中的节点,这些节点可能是我们将计算转移到的数据节点。这意味着同时调度多个并行任务。
-
它还应该保证计算的可靠性和对故障的完全容忍度。这意味着它应该支持可编程的复制和恢复文件时需要。它应该很容易扩展到生成数据的分布式notes。
-
它还应该使添加新资源能够利用分布式计算机,并在不损失性能的情况下扩展到更多或更快的数据。如果需要,这称为向外扩展。因
大数据编程模型解析

本文探讨了大数据编程模型的概念,强调其在处理大规模数据集时的重要性。通过对比不同级别的抽象,文章详细介绍了大数据编程模型应具备的特点,如支持数据分割、快速访问、容错能力及可扩展性。并通过MapReduce模型的实例,展示了如何将复杂任务分解为并行任务,高效利用分布式文件系统。
最低0.47元/天 解锁文章
2658

被折叠的 条评论
为什么被折叠?



