5、利用公共资源计算框架进行分布式数据挖掘

jupyter5notebook

于 2025-10-19 09:34:27 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：网格与服务计算前沿文章标签：分布式数据挖掘公共资源计算 P2P框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/jupyter5notebook/article/details/154437474

网格与服务计算前沿专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用公共资源计算框架进行分布式数据挖掘

1. 引言

在过去几年里，提出了一种去中心化框架，旨在提高公共计算应用程序的灵活性和鲁棒性。该框架有两个基本特点：一是采用 P2P 协议动态匹配作业规范和工作节点特性，无需依赖集中式资源；二是使用分布式缓存服务器，实现数据文件的高效分发和再利用。与 BOINC 和 XtremWeb 不同，此数据分发方案不严重依赖集中式机制进行作业和数据分发。

这个框架可用于广泛的应用场景，如曾提出用于引力波形分析的框架，后又将其应用于事务性数据集中发现频繁闭项集的问题（FCIM 问题）。目前已实现了该框架的 Java 原型，并展示了在真实测试平台上针对 FCIM 问题的初步结果，这些结果证实了分布式志愿者计算架构能提升分布式数据挖掘的效率。

2. 具有缓存功能的公共计算分布式框架

2.1 框架适用的应用特征

该框架的协议和缓存算法具有通用性，可用于满足以下特征的应用程序的分布式执行：
1. 作业数量和复杂度使得分布式执行比集中式执行更高效。例如，若作业持续时间短，将输入数据传输到分布式系统中工作节点所需的时间，可能无法通过在不同机器上并行执行作业获得的优势来弥补。
2. 不同作业经常重用输入数据，这是设置分布式缓存服务器的理由，缓存服务器保存这些数据，并在需要时将其转发给工作节点。
3. 输入数据量足够大，缓存数据才真正有利可图。若数据量太小，让工作节点直接从原始数据源获取数据可能比采用缓存策略更高效。

FCIM 问题具备上述所有特征，是该分布式框架的理想应用场景，但显然该框架也能为数据挖掘和其他不同领域的许多其他应用带来好处。

2.2

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。