图算法并行优化:介数中心性与最优路径森林训练
1. 介数中心性计算的分布式并行算法
在介数中心性计算方面,提出了分布式并行算法。通过实验对比,发现该算法在减少消息数量的策略上是有效的,并且利用双线程实现了通信和处理的重叠。
实验中,将DBB算法与其他算法进行对比,以Email - Enron数据集为例,该算法比Boost库中实现的算法更快。
此外,还提出了利用社交网络稀疏性的版本,通过迭代移除度为1的顶点来减少计算量。实验结果表明,该算法比顺序的Brandes算法更高效,并且在使用2个或更多处理器时,DSPVB算法的性能优于顺序算法。同时,随着处理器数量的增加,DBB和DSPVB算法的加速比都有所提高,说明算法具有良好的可扩展性。
为了进一步优化,还提出了减少内存消耗的策略,即不存储每个源节点的后继数组。并且认为可以通过为每个处理器使用全局数组来指示下一级要访问的节点,而不是遍历距离数组,从而减少处理时间。
2. 最优路径森林(OPF)学习的新并行训练算法
2.1 背景与动机
模式识别的重要性日益凸显,但数据规模和复杂性的快速增长给其带来了挑战。目前,人工神经网络(ANNs)和支持向量机(SVMs)是常用的模式识别技术,而最近提出的最优路径森林(OPF)框架具有一些优势,如部分OPF变体无参数且不依赖样本可分性假设。
OPF虽然在许多应用中取得了与SVMs和ANNs相当甚至更准确的识别结果,且训练速度通常更快,但对于非常大的数据集,其训练时间仍然较长。OPF的训练阶段时间复杂度为θ(n²),因此有必要进行改进。本文的主要贡献是引入一种新的数据结构,实现OPF的并行化,从而在