关键词:
鲁棒社团检测
自步学习
集成聚类
推荐系统
协同过滤
摘要:
社团检测一直是复杂网络中的重点研究领域。在近年的研究中,人们发现网络中细微的噪声会给社团检测算法带来巨大的负面影响。其主要原因是:它们假设输入的网络是完美干净的。然而,收集的网络数据充满了噪声,并且很难确定噪声的类型。比如,偶然产生的随机噪声和对抗攻击产生的恶意噪声就会使得网络呈现出不一样的数据特征。为克服噪声对社团检测性能的影响,如何设计鲁棒社团检测算法成为研究的热点。现有研究常利用噪声类型先验来增强网络,实现鲁棒社团检测。先验信息是很难获得的,因此这种方式在实际使用时有着诸多的限制。针对这一问题,本文提出了基于自步学习和集成聚类的鲁棒社团检测算法。通过利用基础模型信息替代噪声类型假设,从损失函数和基社团两个不同角度克服了传统社团检测算法面对噪声网络时性能下降和现有鲁棒社团检测算法应用受限的问题。另外,互联网的高速发展使得推荐系统已经成为人们日常生活的一部分。本文深入探究了协同过滤技术进行推荐任务的数据稀疏性和噪声问题,并提出了一种基于鲁棒社团检测的方案,同时将上述鲁棒社团检测方法应用于该场景。本文的工作总结如下:
(1)提出了一种基于自步学习的鲁棒社团检测框架,称之为Silencer。Silencer通过将自步学习框架和基于像素损失的社团检测算法进行结合,使得算法在迭代过程中能够自动根据像素级损失定位噪声边,从而降低其对模型的影响以提高模型的鲁棒性。本文成功地将非负矩阵分解算法(Nonnegative Matrix Factorization,NMF)和深度自编码器算法(Deep Autoencoder-like Nonnegative Matrix Factorization for Community Detection,DANMF)嵌入到Silencer框架。相比传统社团检测方法,Silencer能更好地适应包含噪声的真实网络,减少了人工鉴定噪声边所耗费的时间成本。
(2)提出了一种基于集成聚类的鲁棒社团检测算法(Ensemble Clustering Robust Community Detection,EC-RCD)。EC-RCD改进基于模块度的传统社团检测算法和共识网络生成算法,得到了偏离者和平等者两个模块。与其它鲁棒社团检测方法最大的不同在于,此方法增强网络的信息,来自多次运行基础算法得到的结果,而不是一些基于网络特征的先验假设。这两个模块使EC-RCD能够在没有任何先验噪声假设和数据特征假设的情况下实现鲁棒社团检测。
(3)随着数据量的增大,如今靠人力面对数以亿计的商品已经很难完成推荐任务,因此推荐系统已经成为当下最热门的研究话题之一。现有推荐系统中最常用的就是协同过滤技术,但不论是基于相似度函数还是基于传统社团检测,在得到相似用户的过程中都会不可避免的存在稀疏性和噪声问题。因此,本文将EC-RCD与协同过滤技术进行结合,它能既能继承社团检测算法解决稀疏性问题的优势,又能缓解噪声带来的社团检测性能不佳的问题。