关键词:
社团检测
标签传播
三节点模体
密度峰值
摘要:
复杂网络是对现实世界中复杂系统进行建模得到的一种网络结构,在城市交通网络、社交网络、生物学网络等领域中广泛存在。随着数字化时代的到来,这些复杂网络已成为研究信息传播和揭示网络结构的重要工具。通过识别网络中的社团结构,能够探知网络的拓扑特征,从而帮助优化网络布局和资源分配,社团检测为深入理解复杂网络的功能结构及动态行为提供了有力工具,成为当下研究的热点。
标签传播算法是一种简单高效的社团检测算法,无需先验知识且适用于大规模网络,同时时间复杂度近似线性。但其在节点更新顺序的选择和标签选择上存在随机性,导致算法划分的结果不稳定且准确性较低。针对以上问题,本文提出了两种改进算法,主要研究内容如下:
(1)为了解决原始标签传播算法的随机性强这一问题,本文提出了一种基于三节点模体挖掘的标签传播算法。通过挖掘三节点模体来获取网络的高阶拓扑结构,并为避免高阶连接模式下出现孤立节点的情况,与原始低阶拓扑结构合并来重建网络。本文基于三节点模体定义了节点和连边权重的计算方式,并计算出节点间的连接强度。为克服标签选择阶段的随机性,该算法设计了新的标签更新规则,该规则结合了连边权重、节点连接强度以及邻居节点中标签出现的频率,并引入平衡因子以加大标签传播力度的差异性。同时在节点更新顺序的选择上,算法根据计算出的节点权重进行升序排列,解决了多次运行结果不一致的问题,提高了算法的稳定性。
(2)为了进一步识别出具体的社团中心,针对已知社团数量的网络,本文提出了一种基于密度峰值和最短路径的标签传播算法。本文结合密度峰值聚类思想,计算出节点的局部密度和相对距离,并利用切比雪夫不等式来选择出合适数量的社团中心节点。同时根据节点间的重叠相似度来计算节点间距离,从而使原始网络转化为加权网络,剩余节点根据其到不同社团中心节点的最短路径长度来进行标签传播。若出现多个候选标签,则选取其邻居节点中出现次数最多的标签。确定社团中心节点后,剩余节点只需迭代一次即可完成标签更新,提高了算法的效率,并且划分结果的准确性也得到了保障。
本文将基于三节点模体挖掘的标签传播算法以及基于密度峰值和最短路径的标签传播算法在9个真实网络数据集和42个不同规模不同复杂度的人工合成网络数据集上进行大量实验,并与其他六种经典社团检测算法进行对比,实验结果显示,本文算法能够准确地识别出复杂网络中的社团结构,尤其在大规模网络上表现出色,证明了算法改进策略的可行性和有效性,验证了算法的高效性和稳定性。