关键词:
进化计算
标签传播
密母算法
强化学习
网络嵌入
图自编码器
摘要:
现实世界的许多事物,如电力系统、社交网络、交通网络等,都可以抽象成由节点和其联结关系构成的复杂网络。社团检测和网络嵌入是复杂网络中两个重要的研究方向。一方面,社团是复杂网络在结构特性上的一个重要体现,不仅可以反映社交网络中的兴趣团体,还可以反映蛋白质相互作用网络中的调控模块,因此社团检测对于理解网络中信息传播,发现网络中功能模块都起到关键作用。另一方面,网络嵌入通过将高维稀疏连接关系映射至低维向量空间,克服了处理高维非线性数据的困难,为后续在分类、识别和预测等任务上使用机器学习算法创造了有利条件。然而这两个研究方向面临着诸多困难:在社团检测问题中,多样化的现实情境和图结构的非线性性质对如何定义合适的社团目标函数提出了挑战,同时大规模的节点数量亦要求社团检测算法具有高效的搜索方式;在网络嵌入问题中,如何突破传统的一阶二阶相似度定义引入社团结构相似度,并在网络嵌入学习算法的可导目标函数中加入社团结构信息是一个挑战。基于以上挑战,本文一方面研究并设计了基于进化计算的社团检测算法中的三个关键算子:初始化算子、交叉算子和局部搜索算子;另一方面,针对如何在网络映射中保留社团结构信息,提出了一种使用图自编码器和进化计算交替优化网络嵌入的方法,主要研究工作如下:(1)基于启发式采样和等价映射的社团检测进化算法大多数基于进化计算的社团检测算法没有处理个体交叉时社团编码存在一部分差异的问题,而且在生成初始解时缺乏对物理假设的考虑。针对上述问题,本文提出了采样算子和学习算子。前者借鉴标签传播算法的思路从发展的角度看待社团的变动,认为社团划分采样于由图矩阵支配的信息传播过程;后者在海明距离的意义下,构建了寻找两个个体之间等价映射的贪心算法,来消解一部分编码差异的问题。进而本文提出综合两者的基于启发式采样和等价映射的进化算法用于处理社团检测问题。通过多种现实网络的独立对比实验,分别证明了学习算子和采样算子的有效性,以及整体算法相对以往基于进化计算的社团检测算法的优势。(2)基于置信度上限和大规模邻域搜索的社团检测密母算法大部分的基于进化计算的社团检测算法中,局部搜索算子往往采用的是传统的爬山法和模拟退火等缺乏针对性的搜索方法。本文引入了强化学习和大规模邻域搜索的框架,并针对社团检测问题建立了社团评分函数、移动收益函数的概念来使用基于强化学习范式的控制策略,建立了破坏算子和修复算子的概念来使用大规模邻域搜索的框架。两者在密母算法的框架下结合起来以利用不同社团评分函数的优势。实验表明,我们提出的局部搜索方法相对传统的启发式局部搜索算子收敛速度快,收敛上限高,同时基于不同社团评分函数的局部搜索算子在密母算法中的重组算子影响下组合具有更大的优势。(3)基于进化计算与图自编码器的网络嵌入学习算法将高阶结构信息以及社团所暗含的信息融入到网络嵌入的学习之中一直是人们所期望的事情,然而无论是传统的矩阵分解方法还是现在流行的深度学习方法都是从重建损失函数的角度优化嵌入问题,从而难以引入不可导的离散形式的社团结构函数。本文一方面建立了表示重叠社团的向量和社团相似度矩阵,在图自编码器的目标函数中加了社团结构项;另一方面,利用第一个工作中提出的采样算子从自编码器输出的网络嵌入表示中提取社团表示,构成了进化优化的初始种群。上述两者结合实现了交替优化的网络嵌入学习算法。实验结果表明,我们提出的方法与经典的网络嵌入方法相比在基于网络嵌入的节点分类任务上表现良好。