利用公共资源计算框架进行分布式数据挖掘
1. 引言
在过去几年里,提出了一种去中心化框架,旨在提高公共计算应用程序的灵活性和鲁棒性。该框架有两个基本特点:一是采用 P2P 协议动态匹配作业规范和工作节点特性,无需依赖集中式资源;二是使用分布式缓存服务器,实现数据文件的高效分发和再利用。与 BOINC 和 XtremWeb 不同,此数据分发方案不严重依赖集中式机制进行作业和数据分发。
这个框架可用于广泛的应用场景,如曾提出用于引力波形分析的框架,后又将其应用于事务性数据集中发现频繁闭项集的问题(FCIM 问题)。目前已实现了该框架的 Java 原型,并展示了在真实测试平台上针对 FCIM 问题的初步结果,这些结果证实了分布式志愿者计算架构能提升分布式数据挖掘的效率。
2. 具有缓存功能的公共计算分布式框架
2.1 框架适用的应用特征
该框架的协议和缓存算法具有通用性,可用于满足以下特征的应用程序的分布式执行:
1. 作业数量和复杂度使得分布式执行比集中式执行更高效。例如,若作业持续时间短,将输入数据传输到分布式系统中工作节点所需的时间,可能无法通过在不同机器上并行执行作业获得的优势来弥补。
2. 不同作业经常重用输入数据,这是设置分布式缓存服务器的理由,缓存服务器保存这些数据,并在需要时将其转发给工作节点。
3. 输入数据量足够大,缓存数据才真正有利可图。若数据量太小,让工作节点直接从原始数据源获取数据可能比采用缓存策略更高效。
FCIM 问题具备上述所有特征,是该分布式框架的理想应用场景,但显然该框架也能为数据挖掘和其他不同领域的许多其他应用带来好处。
超级会员免费看
订阅专栏 解锁全文
1461

被折叠的 条评论
为什么被折叠?



