大数据处理的Atrain分布式系统与数据结构
1 引言
当今大数据世界正以极快的速度在4V(Volume、Varity、Velocity和Veracity)以及更多方向上扩展。计算机科学家们面临着如何处理大数据、如何在有限资源内高效处理大数据等重要问题。目前,大数据的扩展速度与新硬件、新软件、新数学理论和新模型的开发速度不匹配。
我们定义两个集合:
- 4V - 集合 = {Volume、Varity、Velocity和Veracity}
- 4N - 集合 = {New Theories、New Hardware、New Software、New Models}
显然,只有4N - 集合更快发展,才能高效处理大数据。若4V - 集合持续主导4N - 集合,实现“大数据:一场将改变我们生活、工作和思维方式的革命”将变得困难。因此,需要开发专门用于大数据的新数据结构、新分布式系统、新网络拓扑和新数学/逻辑理论模型。
2 “r - Train”和“r - Atrain”:大数据的数据结构
现有的经典数据结构不足以处理大数据,因此引入了用于同质大数据的同质数据结构“r - Train”(train)和用于异质大数据的异质数据结构“r - Atrain”(atrain)。这两种数据结构可进一步扩展定义MT和MA数据结构,且与专门为处理大数据设计的新分布式系统“ADS”完全兼容,可在水平和垂直方向上按需扩展,以应对任何规模的4V大数据。
2.1 Larray
Larray代表“Like ARRAY”,类似于元素类型相同的数组,但允许零个或多个元素为空(用ε表示)。ε与其他元素类型相同
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



