37、大数据内存集群计算：Spark与Tachyon的应用与优势

最新推荐文章于 2025-11-25 19:39:25 发布

php55

最新推荐文章于 2025-11-25 19:39:25 发布

阅读量30

点赞数

CC 4.0 BY-SA版权

分类专栏：探索云计算：从理论到实践文章标签：大数据内存集群计算 Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/php55/article/details/150669341

探索云计算：从理论到实践专栏收录该内容

69 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

大数据内存集群计算：Spark与Tachyon的应用与优势

在云计算领域，系统软件和应用软件之间的界限变得模糊。软件栈包含基于抽象的组件，这些抽象将应用程序和系统管理的各个方面结合起来。Spark和Tachyon就是云计算软件栈中这类元素的典型代表。

内存集群计算的背景与挑战

在可预见的未来，假设超大型集群能够容纳PB级甚至更多的数据进行内存存储是不现实的。即便存储成本大幅下降，服务器间的大量通信也会限制性能。不过，在迭代和其他类型的大数据应用中，会反复使用输入数据的稳定子集。若能识别出输入数据的工作集，将其加载到内存并留作后续使用，就能显著提升性能。

这类应用的明显例子包括涉及多个数据库和跨数据库的多个查询，以及对同一数据子集进行多次查询的交互式数据挖掘。PageRank算法也是一种迭代算法，其数据共享更为复杂。在每次迭代i中，排名为r(i)且有n个邻居的文档会向每个邻居发送r(i)/n的贡献值，然后更新自身排名：
$r_{i+1} = \frac{\alpha}{N} + (1 - \alpha) \sum_{j=1}^{n} c_{j}$
其中，α是阻尼因子，N是数据库中文档的数量，求和是对其收到的所有贡献值进行。

分布式共享内存（DSM）是实现内存数据重用的一种解决方案。但DSM允许的细粒度操作，对于本节讨论的应用类型而言，对单个数据元素的访问并非特别有用。而且，DSM不支持有效的故障恢复和数据分布，也无法带来显著的性能提升。针对不同框架，已经实现了一些临时的内存数据重用解决方案，例如用于MapReduce的HaLoop。

数据共享抽象：RDD与Spark

为了支持基于粗粒度转换的受限共享

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。