复杂的现实世界中,任何包含若干个体且存在联系的系统都可以被抽象为网络,如何探究大型复杂网络的重叠社区结构是当今一大热点问题,大量的重叠社区发现算法被提出并应用于各个领域的大型复杂网络,帮助挖掘网络数据集中隐含的价值。
现如今,生物信息学领域在蓬勃发展,研究人员开始将社区发现算法应用于蛋白质交互网络(protein-protein interaction network,PPI网络),有助于在分子水平上预测未知蛋白质的功能,从而进一步揭示细胞活动的规律性。
为了解决现有重叠社区发现算法存在的社区发现效果与普适性一般、社区规模不合理的问题,本文提出了基于节点影响力传播系数的重叠社区发现算法(Node influence propagation algorithm,简称NIP算法)。该算法在HIE算法和LPANNI算法的基础上,结合基于三级邻居的节点影响力衡量方法和三角结构对节点影响力度量模型,提出了节点影响力传播系数,以此提升中心节点选取的准确性:改进了边距离的衡量方式,使社区划分的结果更加准确:提出了对社区边缘节点的贪心优化策略,使重叠结构更加合理。将该算法与经典算法在标准划分的真实网络和PPI网络两种网络类型上的效果进行比较,结果表明,本文提出的NIP算法相对于HIE算法、CES算法、LPANNI算法、LC算法等算法可以明显提高网络社区发现的EQ值和NMI值,验证该算法不仅能呈现合理的社区结构,还能发现网络中的重叠结构。