Download as pdf or txt
Download as pdf or txt
You are on page 1of 22

计算机工程与应用

Computer Engineering and Applications


ISSN 1002-8331,CN 11-2127/TP

《计算机工程与应用》网络首发论文

题目: 融合异质性和动态性的社区发现研究综述
作者: 武永亮,窦世卯,李景辉,董家浩,魏丹
网络首发日期: 2024-07-15
引用格式: 武永亮,窦世卯,李景辉,董家浩,魏丹.融合异质性和动态性的社区发现
研究综述[J/OL].计算机工程与应用.
https://link.cnki.net/urlid/11.2127.TP.20240712.1041.006

网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间:2024-07-15 15:56:54
网络首发地址:https://link.cnki.net/urlid/11.2127.TP.20240712.1041.006

1 Computer Engineering and Applications

融合异质性和动态性的社区发现研究综述

武永亮,窦世卯,李景辉,董家浩,魏丹
石家庄铁道大学 信息科学与技术学院,石家庄 050043

摘要:随着社交网络的发展,图结构成为数据处理的关键技术。社区发现是图结构研究的
热点领域,旨在识别连接紧密的结点组(即社区)。由于图结构具有异质性和动态性特征,
异质图和动态图中的社区发现成为当前研究难点。已有综述大都针对单一特性开展,对于
异质性和动态性特征关注较少。基于此,从图的异质性和动态性两方面进行深入调研,总
结社区发现领域的研究进展。首先介绍社区发现相关的基础知识,并针对异质性和动态性
特征汇总了相关数据集和评价指标。然后,针对社区发现算法不同的目标对象,将现有社
区发现研究分为静态同质图社区发现、静态异质图社区发现、动态同质图社区发现和动态
异质图社区发现,并分别进行文献综述及优缺点分析。最后,总结社区发现算法的应用领
域和未来研究方向,并展望了社区发现研究的未来发展趋势。
关键词:图结构; 社区发现; 异质性; 动态性
文献标志码: A 中图分类号:TP391 doi:10.3778/j.issn.1002-8331.2403-0432

Survey of Community Detection from the Perspectives of Dynamics and


Heterogeneity
WU Yongliang, DOU Shimao, LI Jinghui, DONG Jiahao, WEI Dan

School of Information Science and Technology, Shijiazhuang Tiedao University, Shijiazhuang


050043, China

Abstract: With the development of social networks, graph structure has become a key technology
in data processing. Community detection is a hot area of research in graph structures, aiming to
identify groups of nodes that are closely connected (i.e., communities). Due to the heterogeneous
and dynamic characteristics of graph structures, community detection in heterogeneous and
dynamic graphs has become a current research challenge. Existing reviews mostly focus on a single
characteristic, with less attention to heterogeneity and dynamics. Based on this, this paper conducts
an in-depth investigation from the aspects of graph heterogeneity and dynamics, summarizing the
research progress in the field of community detection. It first introduces the basic knowledge related
to community detection and summarizes the relevant datasets and evaluation metrics for the
characteristics of heterogeneity and dynamics. Then, according to the different target objects of
community detection algorithms, existing community detection research is divided into static
homogeneous graph community detection, static heterogeneous graph community detection,
dynamic homogeneous graph community detection, and dynamic heterogeneous graph community
detection, and a literature review and analysis of advantages and disadvantages are conducted for

基金项目:国家自然科学基金(62106157);河北省自然科学基金(F2024210005、F2021210002)
作者简介:武永亮(1986-),通信作者,男,博士,CCF 高级会员,研究方向为人工智能、自然语言处理,
E-mail:wuyongliang@stdu.edu.cn;窦世卯(2000-),男,硕士,研究方向为自然语言处理;李景
辉(1998-),男,硕士,研究方向为自然语言处理;董家浩(1998-),男,硕士,研究方向为自然
语言处理;魏丹(1997-),女,硕士,研究方向为自然语言处理。
2 Computer Engineering and Applications

each. Finally, the application fields of community detection algorithms and future research
directions are summarized, and the future development trend of community detection research is
prospected.
Key words: Graph structure; Community detection; Heterogeneity; Dynamic

图结构(Graph)是一种在计算机科学和数 表 1 社区发现算法分类
学中常见的数据结构,常用于表示对象之间 Table 1 Community detection algorithm classification
同质图 异质图
的复杂关系。图由结点(顶点)和结点关系(边) 静态图 静态同质社区发现 静态异质社区发现
[4-9] [10-14]
组成,分别表示各领域中的实体及关系表示,
动态图 动态同质社区发现 动态异质社区发现
例如:社交网络、计算机路由网络、地铁路 [15-19] [20-24]

线图、作者合作关系网等。社区是由图结构 本文后续结构如下:第 1 章介绍社区发


中一些联系紧密的结点组成的结点群,常用 现的基础知识,第 2 章对近几年的社区发现
于表示图结构中部分结点间的特殊关系,例 算法进行分类总结,第 3 章介绍社区发现算
法的应用领域,第 4 章介绍社区发现未来的
如:社交网络中的话题、作者关系网中的研
研究方向,第 5 章总结本文并分析了社区发
究领域等。在实际应用场景中,社区子图具
现研究面临的一些挑战。
有重大意义,然而其往往具有隐藏性和复杂
1 社区发现相关基础
性,难以直接获取。
社区发现(Community Detection)的目标是
1.1 基本定义
定义 1 (信息网络) 用于表示信息实体及
发现复杂网络中内部连接紧密且外部连接松
其相互关系,通常定义为图 G  (V , E) ,其中
散的隐藏子图(社区)。旨在将网络中的结点划
V 代表结点集, E 代表边集。图结构是一种
分成若干个社区,使得社区内结点之间存在
抽象的数据结构,由结点和边组成,结点表
尽量多的连接,而不同社区之间存在较少的
示实体或对象,边表示结点之间的关系;而
连接。社区发现在各种复杂网络中都有广泛 信息网络是由结点和连接组成的,结点表示
应用,例如:社交网络[1]、问答网络[2]、生物 信息实体,连接表示结点之间的关系,信息
网络[3]等。社区发现揭示了复杂网络中隐含 网络是一种特定的关系数据表示方式。对象
的组成结构,如群体形成、信息传播模式等, 类型映射函数定义为  : V  A ;连接类型映
对于深入理解社区组成具有重要意义。 射函数为  : E  R 。每个对象 v V 属于
随着数据种类多样化,图结构的特性也 对象类型集 A 中的特定类型:  (v)  A ;每
越来越复杂,其中异质性和动态性尤为突出。 个连接 e  E 属于关系类型集 R 中一个特定类
异质性是指图结构中包含不同类型的结点或 型: (e)  R 。
边,这类图称作异质图(Heterogeneous Graph)。
定义 2 (同质/异质信息网络) 信息网络中
它比传统图结构更加复杂,能够更准确地描
所有结点的类型一致且边的类型也一致时,
述现实世界中的数据关系。动态性是指图结
称之为同质信息网络。网络中包含不同类型
构中的结点和关系会随着时间的推移不断发
结点或边的复杂网络,称之为异质信息网络。
生变化,这类图叫做动态图(Dynamic Graph),
如图 G  (V , E) ,只有当对象类型数量和关系
它比普通的静态图更能表达真实应用场景中
的数据变化趋势。 类型数量均为 1 时,即 | A | 1 且 | R | 1 ,此时
异质图和动态图的社区发现能够帮助人 的信息网络称为同质信息网络,其他情况为
们更好地理解网络信息传播、结点互动以及 异质信息网络。
网络演化等复杂现象,从而揭示网络行为的 定义 3 (静态信息网络) 是指网络中的结
本质。因此,如何有效地发现异质图和动态 点和边不会随时间发生变化,即 G  (V , E) ,
图中的社区是当前网络结构研究的热点话题 其中 V  (v1, v 2, v3,..., vn) 是一组对象,称为结
之一,也是社区发现在真实场景应用面临的
点或顶点; E  {(vi, vj ) | vi, vj V , i  j} 是一组
瓶颈难题。
连接,称为边,用来连接两个结点。
综上所述,本文从异质性和动态性两个
定义 4 (动态信息网络) 由一系列连续的
角度对现有社区发现研究进行调研,总结现
快照网络表示, G  {G1, G 2, G3,..., GT} ,其中
有社区发现领域的研究进展,并依据处理数
据对象不同,将已有社区发现研究分为静态 每个 Gt 是结点和边在 t 时刻的快照图, T 表
同质、静态异质、动态同质和动态异质四个 示快照网络数量。在动态信息网络中,结点
类别分别进行总结分析,如表 1 所示。 和边会随时间变化,包括结点和边的删除及
3 Computer Engineering and Applications

添加。如图 1 所示,描述了 t1, t 2, t 3 时刻结点和 图 3 所示。


边的变化,其中紫色结点代表删除结点,绿
色结点代表新增结点;紫色虚线代表删除的
边,绿色实线代表新增的边。
t1

图 3 社区发现过程图
Fig.3 Community detection process diagram
定义 7 (静态同质/异质社区发现) 当输入
的图只有一张,并希望标注出这张图中的社
t2 消失边
消失结点 区结构时,即是静态社区发现。定义一个静
态图 G  (V , E, A, R) ,其中 V 是结点集合, E
是边集合, A 是结点类型集合, R 是边类型
集合, C  {C1 , C2 ,..., Ck } 是图 G 的社区划分,
其中 Ci 是第 i 个社区的结点集合。当图 G 中

新增边
结点类型数量 | A | 1 且边类型数量 | R | 1 时
t3
新增结点 为静态同质社区发现,否则为静态异质社区
发现。
定义 8 (动态同质/异质社区发现) 当输入
的是多张图或者一个图序列时,需要考虑这
些图随时间的变化,并尝试追踪社区结构的
图 1 动态网络图 演化,即是动态社区发现。定义一个动态图
Fig.1 Dynamic network diagram
G  {G1 , G2 ,..., GT } , T 是 时 间 步 的 总 数 ,
定义 5 (社区) 是由信息网络中的结点构
成的密集群体。各个社区内部的结点连接紧 Gt  (Vt , Et , At , Rt ) 是时间 t 的子图, Vt 、 Et 、
密,而不同社区之间的结点连接稀疏。定义 At 和 Rt 分别是 t 时刻的结点集合、边集合、
图 G  (V , E) , V 是结点集合, E 是边集合, 结 点 类 型 集 合 和 边 类 型 集 合 。
依据结点间的联系紧密程度将图 G 划分为 Ct  {C1t , C2t ,..., Ckt } 是在时间 t 的一个社区划分,
C  {C1 , C2 ,..., Ck } , Ci 是第 i 个社区的结点 其中 Cit 是第 i 个社区的结点集合, Ct 随时间
集合,其过程示意如图 2 所示,图中 9 个结点 t 的变化而变化,表示社区的形成、合并、分
被划分成 C 1, C 2 两个社区。 裂或消失。当动态图 G 中任意时刻的结点类
型数量 | At | 1 且边类型数量 | Rt | 1 时为动态
同质社区发现,否则为动态异质社区发现。
1.2 常用数据集
本文归纳总结社区发现的数据集并遵循
以下五条原则:
1、网络结构具有代表性:所选数据集应
C1 C2
能够代表不同类型的网络结构,比如:社交
图 2 社区示意图 网络、合作网络、引文网络等,以便能够全
Fig.2 Community definition diagram 面评估社区发现算法的适用性和有效性。
定义 6 (社区发现) 社区发现是在网络中 2、社区结构具有可识别性:所选数据集
挖掘社区结构的过程。社区结构是复杂网络 中应存在可识别的社区结构,这样才能够验
所具有的基本性质之一,它是社区的基本组 证和比较不同算法在发现实际社区时的性能
成部分,反映了社区的组织形态和内部关系。 和准确性。
社区结构定义为:将网络中的结点按照一定 3、数据规模具有多样性:所选数据集应
的规律或规则进行分组,每一个组就是一个 涵盖不同的规模,从小型网络到大型网络,
社区,社区内部的结点连接紧密,不同社区 以测试社区发现算法在不同规模上的可扩展
的结点连接稀疏。定义图 G  (V , E) , V 是 性和效率。
结点集合, E 是边集合, C  {C1 , C2 ,..., Ck } 4、与实际应用具有关联性:所选数据集
是图 G 的社区划分,社区发现就是在图 G 中 应与实际应用场景紧密相关,以确保社区发
找到一个高质量社区划分 C ,其过程示意如 现算法的研究成果能够转化为实际应用,解
4 Computer Engineering and Applications

决现实世界的问题。 PoliticsUK 是关于英国议会成员和他们之


5、基准和标准化:选择的数据集应能够 间关系的社交网络数据集,有 419 个结点,
作为社区发现领域的基准,提供标准化的测 19950 条边,结点代表议会成员,边代表这些
试平台,使得不同方法之间的比较变得可行 议会成员之间的关系。
和公平。 Olympics 是一个关于奥运会历史信息的
基于以上五条原则并根据图的动态性和 数据集,有 464 个结点,7787 条边,其中结
异质性特征,本文从以下四个方面对社区发 点代表国家或地区,边代表国家或地区之间
现数据集进行总结:静态同质图、静态异质 的交互或连接。
图、动态同质图和动态异质图,数据集汇总 EmailEU 是 邮 件 沟 通 记 录 数 据 集 , 有
如表 2 所示。 1005 个结点,25571 条边,结点代表个人或组
表 2 常用数据集分类 织,边代表他们之间的电子邮件发送和接收
Table 2 Classification of common data sets 行为。
数据集 同质图 异质图
Dolphin、NetScience
Cora 是计算机科学领域的引文网络,数
WikiVote、PoliticsIE 据规模相对较小,包含 2708 个结点,5429 条
Cora、Citeseer、
静态图 PoliticsUK、Olympics 边,其中结点表示论文,边表示引文。
DBLP_C4
EmailEU、Cora、
Pubmed Pubmed 是医学和生物学领域的学术论文
GN Networks、
Cit-HepPh、 引用网络,数据规模相对更大,包含 19717
DBLP、 个结点,44338 条边,其中结点表示论文,边
动态图 Greene、Breast
Facebook、
Cancer、Cellphone
Flickr、 表示引文。
1.2.1 静态同质图 上述九个数据集详情汇总如表 4 所示。
表 4 静态同质网络数据集
静态同质图其结点类型和边类型单一,
Table 4 Static homogeneous network data sets
且结点集和边集不会发生变化,网络结构相 数据集 数据集类型 结点数量 边数量
对稳定。常见用于静态同质图社区发现研究 Dolphins Biological 62 159
NetScience Co-authorship 379 914
的数据集主要有社交网络、合作网络和引文 WikiVote Web 889 2914
网络等,具体如表 3 所示。 PoliticsIE Social 348 12567
表 3 数据集来源 PoliticsUK Social 419 19950
Olympics Sports 464 7787
Table 3 Data sets source EmailEU Email 1005 25571
数据来源 数据集 Cora Citation 2708 5429
Dolphin Pubmed Citation 19717 44338
Network Repository1 NetScience
WikiVote
1.2.2 静态异质图
PoliticsIE 静态异质图结点集和边集固定,结点类
Insight Resources2 PoliticsUK
Olympics 型或边类型不单一,网络结构比较复杂,针
SNAP3 EmailEU 对静态异质图的研究也是当下热点之一。本
Cora
LINQS4
Pubmed 节介绍了三个在静态异质网络中社区发现的
Dolphin 数据集是一个海豚社会关系网络, 三个常用引文网络数据集,具体如表 5 所示。
具有 62 个结点,159 条边,结点表示海豚, 表 5 静态异质网络数据集
Table 5 Static heterogeneous network data sets
边表示海豚之间的联系。 数据集 结点 结点 边数 边类
数据集
NetScience 是一个研究网络理论和实验的 类型 数量 类型 量 型
科学家合作网络,该数据集包含 379 个结点, Cora Citation 2708 7 5429 1
Citeseer Citation 3264 6 4551 1
914 条边,结点表示科学家,边表示科学家之 DBLP_C4 Citation 17725 3 52914 3
间的合作关系。 Cora5是一个包含 7 个类别(Case_Based、
WikiVote 是一个网页关系数据集,包括 Genetic_Algorithms、Neural_Networks、Proba
889 个结点,2914 条边,结点表示网页,边表 bilistic_Methods、Reinforcement_Learning、R
示超链接。 ule_Learning 和 Theory)的机器学习引文网络,
PoliticsIE 数据集是一个关于政治实体和 包含 2708 个结点,5429 条边,其中结点表示
事件关系的数据集,有 348 个结点,12567 条 学术论文,共有 7 个类别,边表示文献之间
边,其中结点代表政治实体,包括政治人物、 的引用关系,只有 1 个类别。
组织、机构等。边代表实体之间的关系,包 Citeseer6是一个包含了 6 个类别(Agents、
括人物之间的亲属关系、政治组织之间的合 AI、DB、IR、ML 和 HCI)的计算机科学引文
作关系、政治事件与实体之间的关联等。 网络,它有 3264 个结点、4551 条边,其中结

1
http://networkrepository.com/ 4
https://linqs.soe.ucsc.edu/data
2
http://mlg.ucd.ie/index.html 5
https://people.cs.umass.edu/∼mccallum/data.html
3
https://snap.stanford.edu/index.html 6
https://github.com/wonniu/AdvT4NE_WWW2019
5 Computer Engineering and Applications

点代表论文,共有 6 个类别,边代表引用关 表 7 动态异质网络数据集


系,只有一个类别。 Table 7 Dynamic heterogeneous network datasets
结点 时间 总时间
DBLP_C47数据集是一个用于机器学习和 网络
数量
边数量
片数 跨度
自然语言处理研究的学术论文数据集,其基 Cit-HepPh 30501 346742 31
124mon
ths
于四个不同的学科领域构建,包括计算机科 DBLP 1411321 5928285 31 62years
学、物理学、数学和统计学。它有 17725 个 Facebook 59302 592406 125
125mon
ths
结点、52914 条边,其中结点包括 Author、 Flickr 780079 4407259 24 72days
Paper 和 Conference 三种类别,边包含 Author- DBLP 是 一 个 引 文 网 络 数 据 集 , 包 含
Paper、Paper-Conference 和 Author-Author 三 1954 年到 2015 年计算机科学领域的学术文献,
种类别。 结点代表学术论文、作者、会议或期刊等学
1.2.3 动态同质图 术实体,边代表这些实体之间的关系。
动态同质图结点类型和边类型单一,但 Facebook 是一个社交网络数据集,时间
结点或边会随着时间而发生变化。本节介绍 跨度为 2006 年 9 月 26 日至 2009 年 1 月 22 日,
四个经典的动态网络数据集,包括两个合成 每个顶点代表一个 Facebook 用户,边代表用
网络和两个真实动态网络,具体如表 6 所示。 户之间建立连接,其中包含一个连接建立时
表 6 动态同质网络数据集 间的时间戳。
Table 6 Dynamic homogeneous network data sets
结点 时间 Flickr 是一个图像共现关系网络,包含超
数据集 边数量
数量 片数 过 180 万结点和 2200 万个连接,每个结点表
合成 GN 256 40096 10 示一个图像,每条边表示两个结点之间的联
网络 Greene 1000 3368544 20
真实 BreastCancer 9879 19884264 4 系,即它们共同出现在相应标签或相册中,
网络 Cellphone 400 10248 10 每个连接都有一个时间戳,代表后续连接建
GN Networks:分为 4 个社区,大小相同, 立的时间。
每个社区包含 64 个结点,共有 256 个结点, 1.3 评价指标
40096 条边。结点表示实体,边表示结点之间 本节介绍四个衡量社区发现质量的常用
的关系。 评价指标。对于没有真实社区的网络,可以
Greene Networks:是一个大规模环境传 用模块度(Modularity) Q 作为评估指标。对于
感器网络数据集,包含了从 2016 年 7 月到 具有真实社区的网络,可以用归一化互信息
2020 年 6 月期间收集的环境传感器数据。有 NMI(Normalized Mutual Information)、F-score
1000 个结点和三百多万条边,结点代表传感 和调整兰德指数 ARI(Adjusted Rand Index)作
器,边代表结点之间的连接关系。 为评估指标。对于所有这些指标,值越大表
Breast Cancer Networks 8 :是一个关于乳 示性能越好。
腺癌患者之间关系网络的数据集,包含 9000 模 块 度(Modularity) Q [25]是 一 个 全 局 优
多个处于不同临床阶段的乳腺癌患者样本。
化目标函数,用来衡量社区网络中的结点聚
结点表示患者样本,边表示样本之间的连接
集的程度,适用于各种类型的网络,包括社
关系。
交网络、生物网络等,具有广泛的适用性。
Cellphone Networks9:是一个关于手机网
当网络的真实社区结构未知时,模块度可以
络的数据集,该数据集包含 400 个结点和 1 万
作为一个有效的量化指标来评估和比较不同
多条边。结点表示手机用户,边表示用户之
社区划分方案的性能,但其不适用于具有特
间的手机通讯情况。
殊结构特性的网络(比如重叠网络),特别是在
1.2.4 动态异质图
网络规模较大时,可能导致算法陷入局部最
动态异质图结点类型和边类型不单一,
优解。其定义如公式(1)。
且结点和边会随着时间而发生变化,这更符
1 n kikj
合实际应用场景,针对动态异质图的研究是 Q  ( Aij  2m ) ( gi, gj )
2m i , j 1
(1)
当下研究难点之一。本节介绍了四个常用的
其中 m 是网络中的边数, gi 是结点 i 的
动态网络数据集,具体如表 7 所示。
社区标签, gi  {1, 2,..., c} , c 代表一个网络
Cit-HepPh 是一个包含 1993 年至 2003 年
被 划 分 为 c 个 社 区 , ki 是 结 点 i 的 度 数 ,
高能物理现象学领域的引文网络数据集,其中 A  ( Aij )n  n 是一个邻接矩阵,  是一个克罗
每个结点代表一个作者,每个边表示两个作 内克三角函数(Kronecker delta function)表
者之间的合作关系。 示结点是否在同一个社区内,在同一个社区

7
http://arnetminer.org/citation 9
http://www.cs.umd.edu/hcil/VASTchange08/
8
https://cancergenome.nih.gov/
6 Computer Engineering and Applications

内为 1,否则为 0。 调 整 兰 德 指 数(ARI)[25]是 兰 德 指 数
归一化互信息(NMI)[26]来源于信息论中 RI(Rand Index)的机会校正版本。
的熵,用于度量两个聚类结果的相近程度。 兰德指数 (RI)如公式(10)。
对于离散随机变量 X ,其熵定义为公式(2)。 TP  TN
RI  (10)
H ( X )   E[log p( x)]   p( x) log p( x) (2) TP  FP  FN  TN
x
RI 中 FP 和 FN 具 有 相 同 权 重 。 如 果
联合熵定义为公式(3)。
  1 , F 将比 FPs 更惩罚 FN s ,从而产生更
H ( X , Y )   E[log p( x, y )]
多的召回权重 R ,如公式(11)。
  p ( x, y ) log p ( x, y ) (3)
TP TP (  2  1) PR
x y
P ;R  ; F 
条件熵定义为公式(4)。 TP  FP TP  FN  2P  R
H (Y | X )   E[ H ( y | x)]   p( x) H ( y | x) (11)
(4)
在社区发现中, ARI 是 RI 的机会校正版
x

  p( x, y) log p( y | x)
x y 本。“机会校正”的思想是利用一个通用公式
基于以上定义,两个随机离散变量的互 (12),表示任意度量 H 。
信息可以定义为公式(5)。它用来衡量 X 和 Y H  E(H )
之间的相互依赖性。 Hc  (12)
H max  E ( H )
I ( X ;Y )  H ( X )  H ( X | Y ) (5)
其中 H c 是机会校正度量, H max 是 H 的
归一化互信息 NMI 定义为公式(6)。
最大值, E ( H ) 是某个空模型的期望值。如
2I ( X ;Y )
NMI ( X , Y )  (6) 果分区是在社区数量和大小的约束下随机生
H ( X )  H (Y )
成的,则社区交叉点 i  cj 中对数的期望如
NMI 为聚类或社区发现结果的可解释性
公式(13)。
提供了量化指标,其值域在 0 到 1 之间,便于
 N  i , cj   N  i  Ncj   N 
理解和比较。NMI 值越高,代表聚类或社区 E      (13)
划分的结果与真实类别或标准划分之间的相  2   2  2   2 
似度越高。但其计算涉及概率分布的计算, 将公式(13)带入公式(12)中,经过简化得
对于大型数据集比较耗时,此外,由于随机 到 ARI 表达式如公式(14)。
 N i , cj   N i   Ncj   N 
初始化和随机聚类结果的影响,其评估结果  ij    i   j    (14)
ARI (, C )   2   2   2  2
具有一定的不稳定性。 1  N i   Ncj    N i   Ncj   N 
 i     j     i   j   
F-score[26]是精确度和召回率的调和平均 2  2   2   2   2  2

值,如公式(9)。精确度(Pecision)定义如公式 ARI 是对称的,范围从−1(两个社区完全


(7)。召回率(Recall)定义如公式(8)。 不同)到 1(两个社区完全相同)。值越大表示聚
TP 类结果与真实情况越吻合。
Precision= (7) ARI 是一个常用的社区发现评价指标,
TP  FP
TP 用于评估检测到的社区结构与真实社区结构
Recall= (8) 之间的吻合程度。其值的范围明确界定在[-1,
TP  FN
1]之间,但其计算方法相对复杂,并且需要
precision  recall
F  score=(1+ 2 )  2 (9) 真实的标签信息。如果数据集没有真实标签
(   precision)  recall 或标签不准确,那么 ARI 的评估结果可能会
当  =1 时,称为 F1-score,其表示精确度 受到影响。
和召回率具有相同权重。可根据实际情况调 2 基于动态性和异质性的社区发现综
整  的值。如精确度权重更大,则调整  的 述
值小于 1。如要增大召回率比重,则调整 
2.1 静态同质社区发现方法综述
的值大于 1。 2.1.1 问题定义
F-score 适用于二分类和多分类问题的评
定义图 G  (V , E, A, R) ,其中 V 是结点集
估。在社区发现中,它可以用于评估社区划
合, E 是边集合, A 是结点类型集合, R 是
分结果与真实社区结构之间的相似性。当数
边类型集合, C  {C1 , C2 ,..., Ck } 是图 G 的社
据集中正负样本比例不均衡时,使用 F-score
进行评估可以更加准确地反映模型性能。例 区划分,其中 Ci 是第 i 个社区的结点集合。
如,在社区发现中,不同大小的社区数量差 静态同质社区发现是指在结点类型数量
异较大时,F-score 仍能给出较为准确的评估。 | A | 1 且边类型数量 | R | 1 的图 G 中找到一
但在样本数量较少的情况下,F-score 的波动 个高质量社区划分 C 。
可能较大,评估结果可能不够稳定。 2.1.2 核心架构
7 Computer Engineering and Applications

静态同质社区发现的核心架构主要包括 经开展了相关研究。Ye 等[7]基于非负矩阵分


静态同质图构造、图表示方法和社区发现方 解提出同质性保持 NMF 方法,同时对网络的
法三部分,如图 4 所示。 链路拓扑和结点同质性进行建模来更好地反
静态同质图构造部分主要展示了静态同 映群落结构的内在特性,提高社区发现效率。
质图的构造形式,其结点是静态且所有结点 已有的基于 NMF 的社区发现方法忽略了学习
类型一致,结点之间边的类型也一致。图表 方案的重要性,因此,Luo 等[27]基于对称非
示方法部分介绍了静态同质图中常用的几种 负 矩 阵 分 解 和 非 负 乘 法 更 新(Nonnegative
方法,主要有图嵌入、共现矩阵、随机游走 Multiplicative Update, NMU)方案,并通过线
和路径表示四种方法。社区发现方法部分对 性或非线性策略来调整 NMU 缩放因子,以此
静态同质图中常用的社区发现方法进行了归 来验证学习方案对社区发现方法的重要性,
纳总结,详细介绍见 2.1.3 小节。 实现高精度的社区发现。
静态同质图构造 网络嵌入技术通过将网络中的结点和
边映射到低维向量空间中,保留结点之 间
的拓扑结构和属性信息,以便进行更有 效
地发现社区和结构特征。研究人员基于网络
嵌入的社区发现方法相关研究如下。Sun 等[4]
提出一种网络嵌入聚类模型来学习属性图中
结点的表示,提高了属性图社区发现的准确
率,但由于计算过程需要加载整个图,模型
效率有待提升。Zhou 等[5]提出一种基于无监
督属性网络嵌入的社区发现算法,利用无监
图表示方法
督属性得到网络嵌入,并结合拓扑结构、属
性信息和聚类表示来解决社区发现问题,提
图嵌入 共现矩阵
高了属性图中社区发现效率,但其只能用于
随机游走 路径表示
静态且非重叠的属性网络。
基于图遍历的社区发现方法通常依赖于
社区发现方法
图的拓扑结构,通过图遍历方法(如深度优先
搜索 DFS 和广度优先搜索 BFS)来识别结点间
基于非负矩阵分解 基于网络嵌入
的紧密连接,从而发现社区 。 研究人员基于
基于图遍历 基于变分自动编码器
图遍历的社区发现方法相关研究如下。
Basuchowdhuri 等[8]提出一种基于图遍历的社
基于结构相似性 基于对抗学习 区发现框架,通过结合广度优先和深度优先
遍历等简单的遍历方法,可以在接近线性的
基于博弈论 基于增强网络结构
运行时间内实现对高质量社区的高效检测,
基于图神经网络 基于标签传播
提升了社区发现效率。
基 于 变 分 自 动 编 码 器(Variational Auto
图 4 静态同质社区发现核心架构 Encoder, VAE)的静态同质社区发现方法是一
Fig.4 Static homogenous community detection core 种结合了深度学习和图论的社区发现技术。
architecture
VAE 是一种生成模型,它通过编码器将输入
2.1.3 常见方法
数据映射到一个潜在空间,并通过解码器从
常见的静态同质社区发现方法有基于非
潜在空间重构输入数据。研究人员基于变分
负矩阵分解的方法、基于网络嵌入的方法、
自动编码器提出了一些社区发现方法。Fei 等
基于图遍历的方法、基于变分自动编码器的 [9]
提出一种网络核心结构提取算法,通过使
方法、基于结构相似性的方法、基于对抗学
用 K-truss 算法找到网络中的核心结构信息,
习的方法、基于博弈论的方法、基于增强网
生成相似性矩阵,并利用变分自动编码器提
络结构的方法、基于图神经网络的方法和基
取和降低网络核心结构的相似性矩阵维度,
于标签传播的方法,各类方法的时间复杂度、
提高了社区发现准确性,但其不适用于具有
核心方法、优点、局限性和适用网络对比如
稀疏结构的复杂网络。
表 8 所示。
基于结构相似性的静态同质社区发现
非 负 矩 阵 分 解 方 法(Non-negative Matrix
方法通过分析网络中结点的结构特征来 识
Factorization, NMF)通过将网络的邻接矩阵分
别社区结构,其依赖于结点间的连接模式,
解为两个非负矩阵来表示网络中的社区结构,
以及结点在网络中的位置和角色。研究人员
NMF 特别适用于处理高维稀疏数据。研究人
基于结构相似性的社区发现方法研究如下。
员针对基于非负矩阵分解的社区发现方法已
8 Computer Engineering and Applications

Ni 等[28]提出了使用结构相似性算法的半监督 等[29]提出基于对抗学习的社区发现框架,将
局部社区检测,利用图核计算出的已知社区 带符号网络中的所有结点表示为低维嵌入空
和检测到的社区之间的结构相似性来指导社 间中的向量,并使用聚类算法进行社区发现,
区发现,提高了社区发现算法的效率,但其 提高了社区发现算法的精度,但由于模型中
缺少相应的理论支持。 对抗性学习的计算开销与网络中结点的数量
基于对抗学习的静态同质社区发现方 呈二次方关系,使其可扩展性较差。Zhu 等[30]
法通过生成器和判别器之间的对抗过程 来 基 于 对 抗 学 习 提 出 了 EA2CD(Adversarial
学习网络表示。生成器致力于产生逼真 的 Attack Community Detection)框架,该框架引
社区划分,而判别器则尝试区分真实社 区 入对抗训练技术,通过模拟极端网络结构扰
和生成器产生的社区,以此提高社区发 现 动来增强模型对结构扰动的鲁棒性,提高了
方法的鲁棒性和泛化能力。研究人员基于对 社区发现算法的鲁棒性,并且在缺少边缘的
抗学习的社区发现方法相关研究如下。Kang 网络上也表现出优秀的鲁棒性和可扩展性。
表8 静态同质社区发现方法
Table 8 Static homogenous community detection method
方法名称 时间复杂度 核心方法 优点 局限性 适用网络
HPNMF[7] O(t ( n 2 k  nk 2 ))
非负矩阵分解 可解释性强 计算成本较高 高维稀疏网络
GSNMF[27] O(TKn 2 )
NEC[4] - 能够捕捉结点间的 计算资源需求较大
网络嵌入 多类型网络
CDBNE[5] O(k log E  NFD  ED) 复杂关系 参数敏感
时间复杂度低
参数敏感 社区结构明显
LINCOM[8] O(| V |  | E |) 图遍历 不依赖于特定网络
可扩展性较差 的中小型网络
结构或属性
模型灵活 大规模网络和
计算资源需求较大
CSEA[9] O( iV deg(i)2 ) 变分自动编码器 准确性高 复杂数据结构
参数敏感
无监督学习 场景
社区结构明显
精确度高 计算复杂度较高
SLSS[28] O(k 4 d 2  k 2 c 4  c ' sc 4 ) 结构相似性算法 且紧密的中小
鲁棒性强 参数敏感
型网络
ABC[29] O(| V |2 ) 大规模复杂网
模型泛化能力强 计算复杂度较高
对抗学习 络
EA2CD[30] O(T1 N 2  T1T2 N 2 K ) 无监督学习 可解释性差
多层网络
适应性强
DSCPCD[31] O( N 2 ) 博弈论 准确性不稳定 中小型网络
能跨领域应用
[32]
RobustECD O(n ) 2
准确性高 计算复杂度较高
增强网络结构 大规模网络
GEAM[33] O( L Nt(d0  d0 log N )) 适应性强 参数敏感
SSAGCN[34] - 计算复杂度较高
表示学习能力强
图神经网络 参数敏感 大规模网络
ICD [35] O( Ln*  LL'  K t kI ) 自学习能力
数据依赖性强
时间复杂度低 结果不稳定
CNLLP[6] O(n) 标签传播 大规模网络
适应性强 依赖初始标签分配

基于博弈论的静态同质社区发现方法 方法研究如下。Zhou 等[32]通过增强网络结构


是一种利用博弈论原理来探索网络社区 结 来提高社区发现的性能和鲁棒性,提出了两
构的技术。博弈论是研究具有冲突或合 作 种通用算法:一种是名为 RobustECD-GA 的
情形下理性决策者行为的理论,它可以 被 算法,通过遗传算法结合模块度和聚类数量
用来模拟网络中结点之间的相互作用, 并 来优化网络结构;另一种是名为 RobustECD-
以此来发现社区。研究人员将博弈论应用到 SE 的算法,通过整合多种顶点相似性来捕获
社区发现中,并产生了很好的效果。Wang 等 社区结构信息,有效提高了社区发现算法的
[31]
提出一种双重结构一致性保持社区发现方 效 率和 鲁棒性 ,但 其不适 用于 多层网 络 。
法,利用博弈论和进化博弈来揭示社交网络 Wang 等[33]提出了一种用于多重网络中社区发
中隐藏的社区结构,有效提高了社区发现算 现的图增强注意力模型,通过利用每个网络
法的效率和可靠性。 层的局部拓扑结构和全局信息对结点和图嵌
基于增强网络结构的静态同质社区发 入进行编码,有效提高了多层网络中社区发
现方法通过增强网络拓扑结构来改进社 区 现算法的效率,但其时间复杂度较高。
发现算法。这些方法包括增加网络的边 、 基于图神经网络的静态同质社区发现
结点的属性信息或者通过其他方式来增 强 方法利用图神经网络强大的图结构数据 处
网络表达能力,从而更准确地识别社区 结 理能力来识别网络中的社区结构。 以下 研
构。研究人员基于增强网络结构的社区发现 究人员针对基于图神经网络的社区发现方法
9 Computer Engineering and Applications

已经开展了相关研究。He 等[34]提出了一种基 和边的类型不单一,图中不同颜色的圆圈代


于图神经网络(Graph Neural Network, GNN)和 表不同类型的结点,不同颜色的直线代表不
自监督学习的社区发现方法,该方法设计自 同类型的边。图表示方法部分介绍了静态异
适应图卷积网络作为自动融合拓扑信息和属 质图中常用的几种方法,主要有图嵌入、邻
性信息的编码器,能够端到端地检测具有多 接矩阵、随机游走、路径表示、自动编码器
个主题的社区,提高了社区发现的质量,但 和图神经网络六种方法。社区发现方法部分
其时间复杂度较高。Qin 等[35]基于图神经网络 对静态异质图中常用的社区发现方法进行了
提出了一种归纳社区检测方法,通过对抗性 归纳总结,详细介绍见 2.2.3 小节。
双 GNN 结构的离线训练来捕获系统的关键属 2.2.3 常见方法
性,此外,还开发了一种基于图粗化的新型 常见的静态异质社区发现方法有基于图
特征提取模块,它可以有效地为 GNN 提取信 神经网络的方法、基于随机游走的方法、基
息丰富的特征输入,提高了社区发现算法质 于属性的方法、基于聚类的方法、基于非负
量和效率之间的的平衡性。 矩阵分解的方法、基于随机块模型的方法、
基于标签传播的静态同质社区发现方 基于标签传播的方法和基于生成对抗学习的
法是一种迭代图算法,它通过在网络中 的 方法,各类方法的时间复杂度、核心方法、
结点之间传播标签信息来识别社区结构 。 优点、局限性和适用网络对比如表 9 所示。
每个结点开始有一个唯一的标签,然后 根 静态异质图构造
结点类型1
据邻居结点的标签更新自己的标签。经 过
多轮迭代,相似的结点会收敛到相同的 标 结点类型2

签,从而形成社区。研究人员基于标签传播 结点类型3
边类型1
的社区发现方法研究如下。Zhang 等[6]提出一 边类型2
种基于核心结点和逐层标签传播的大规模社 边类型3
区发现方法,通过利用核心结点(结点度大于
平均结点度的核心结点)作为潜在社区中心的
特征,然后从核心结点开始,根据结点度数
和结点连接度逐层进行标签传播,有效提高
了社区检测的准确性,并进一步扩展到检测 图表示方法

重叠社区结构。 图嵌入 邻接矩阵

2.1.4 现有研究的不足和未来研究方向
随机游走 路径表示
现有静态同质社区发现方法已经相对成
熟,但在实际应用中仍存在一些不足。比如, 自动编码器 图神经网络
在一些大规模网络中,计算复杂度较高,如
何提升社区发现效率,降低计算复杂度,是 社区发现方法
值得思考的。此外,为了方便用户理解和分 基于图神经网络 基于随机游走
析社区结构,研究如何有效地可视化社区发
现结果,并提供直观的解释和说明,也是值 基于属性 基于聚类

得关注的研究方向。
基于非负矩阵分解 基于随机块模型
2.2 静态异质社区发现方法综述
2.2.1 问题定义 基于标签传播 基于生成对抗学习

定义图 G  (V , E, A, R) ,其中 V 是结点集


图 5 静态异质社区发现核心架构
合, E 是边集合, A 是结点类型集合, R 是 Fig.5 Static heterogeneous community detection core
边类型集合, C  {C1 , C2 ,..., Ck } 是图 G 的社 architecture
区划分,其中 Ci 是第 i 个社区的结点集合。 基于图神经网络的静态异质社区发现
方法利用图神经网络强大的表示学习能 力
静态异质社区发现是指在结点类型数量
来处理和分析包含多种结点和边类型的 异
| A | 1 或边类型数量 | R | 1 的图 G 中找到一
质网络,识别社区结构。研究人员针对基于
个高质量社区划分 C 。 图神经网络的社区发现方法已经开展了相关
2.2.2 核心架构 研究。Sun 等[10]提出一种用于多目标进化算
静态异质社区现的核心架构主要包括静 法的图神经网络编码方法,将图中每条边与
态异质图构造、静态异质图表示方法和静态 连续变量相关联,然后通过一系列非线性函
异质社区发现方法三部分,如图 5 所示。 数将连续变量的串联变换为所考虑的属性网
静态异质图构造部分主要展示了静态异 络的分区解。基于这种编码,将原来的离散
质图的构造形式,其结点是静态但结点类型 值社区发现问题转化为连续问题,来解决复
10 Computer Engineering and Applications

杂网络中的社区发现问题,但其仅适用于非 员基于随机游走的社区发现方法研究如下。
重叠社区。Liu 等[11]提出一种基于社区视角和 Toth 等[13]提出了一种基于随机游走的社区发
图卷积网络的社区发现方法,解决了现有方 现方法,其通过从一类候选随机游走中合成
法在没有先验标签信息属性网络中分离表示 给定网络引发的随机游走来检测社区,其在
学习和聚类、无法检测重叠社区以及未能有 具有不同混合参数和度分布的网络上表现稳
效捕获社区级别信息的问题,且该方法同时 定。Okuda 等[14]提出了一种约束随机游走相
适用于重叠和非重叠社区。 似度方法来检测图的社区结构,根据步行者
随机游走是一种模拟结点在网络中随 经过的顶点集之间的相似性,将随机游走的
机移动的过程,通过这种过程可以揭示 网 起始顶点聚集在图上,提高了社区发现的精
络的局部聚集特性,从而发现社区。研究人 度,但其效率有待提高。
表9 静态异质社区发现方法
Table 9 Static heterogeneous community detection method
方法名称 时间复杂度 核心方法 优点 局限性 适用网络
MOEA[10] - 表示学习能力强 计算复杂度高
图神经网络 大规模网络
CPGC[11] O( N 2 ) 可扩展性 参数敏感
Synwalk[13] - 时间复杂度低 结果随机性
随机游走 大规模网络
RRWSM[14] - 适应性强 参数敏感
D-SCORE[36] -
DGTA[37] O(t ( n x  m / rmax ) / nw ) 结果准确性高 计算复杂度高 中小型异质属性
属性建模
可解释性强 参数敏感 网络
CluEstar[38] O(lrk (e max
n max
))
SClump[39] O(knt )
IBHCD[40] O(nk 3 ) 可扩展性强 局部最优解
聚类 中小型规模网络
ScBM [41] - 社区结构清晰 参数敏感
MFCD [42] -
NCNMF [43] O( h 2 n3  tn 2 k )
O( i 1 (nt ni dimi ))
t 1
GEjNMF [44] 计算复杂度高
可解释性强
非负矩阵分解 局部最优解 高维稀疏网络
S2-jNMF [45] O ( rn 2 km) 结构准确性高
参数敏感
JOSNMF [46] O(t (n 2 r  nqr )  n3 )
[47]
MWSBM O ( N 2Q 2 K ) 计算复杂度高
可解释性强
PCMML [48] - 随机块模型 局部最优解 中等规模网络
可扩展性强
BiMMDF [49] O (max(nr2 , nc2 ) K ) 参数敏感
MWLP [50] O( m) 时间复杂度低
结果不稳定
标签传播 依赖初始标签分 大规模网络
LBLD [51] O(nk ) 自适应性强

自适应性强 计算复杂度高
SEAL [12] - 生成对抗学习 中小型规模网络
无监督学习 参数敏感

基于属性建模的静态异质社区发现方 的多种结点类型和边类型,通过捕捉结 点
法通过充分利用网络中的结点和边的属 性 间的相似性或距离来识别社区结构。研究人
信息,通过建模这些属性来更准确地发 现 员基于聚类的社区发现方法研究如下。Li 等
[39]
社区结构。研究人员基于属性的社区发现方 基于谱聚类提出一种改进的社区发现算法,
法研究如下。Wang 等[36]基于 D-SCORE 算法 其使用元路径构建有效的相似度矩阵,并通
通过在聚类之前获取邻接矩阵奇异向量的元 过迭代学习过程细化了相似性矩阵和元路径
素比率,以此来减小结点异质性对社区发现 的权重,有效提高了社区发现的效率和质量,
的影响,该方法可扩展到多层网络和结点属 具有较小的时间复杂度。Dall'Amico 等[40]基
性网络,有很好的可扩展性。Chen 等[37]通过 于 Bethe-Hessian 矩 阵 和 谱 聚 类 , 提 出
将属性图表示为星型模式异质图,把属性建 (Improved Bethe-Hessian Community Detection,
模为不同类型的图结点,从而提高聚类效率。 IBHCD)算法,解决了谱聚类在稀疏图中表现
Mei 等[38]提出了一种扩展星结构网络聚类方 不好的问题,提高了稀疏图中社区发现的效
法,通过进一步包含中心-中心关系(即中心类 率。Qing 等[41]通过将谱聚类和随机共同块模
型对象之间的链接)来扩展经典星形结构,与 型扩展到无分布框架来检测加权二分网络中
星型结构网络的方法相比,该方法能够利用 的社区结构,但其仅适用于非重叠网络。Xu
中心对象之间的同构关系来提供对数据结构 等[42]提出了一种基于综合相似度的改进 K-
的更全面的理解,提高了社区发现的效率和 Means 算法,用于研究基于位置的社交网络
质量。 (Location Based Social Network, LBSN)中的社
聚类算法能够很好地处理异质网络中 区发现问题,将社区定义为在社交关系和签
11 Computer Engineering and Applications

到行为方面具有相似特征的一组用户,并基 其邻居的标签信息更新自己的标签。最终,
于 LBSN 数据的丰富知识,从不同维度分析 具有相似标签的结点聚集在一起形成社区。
了用户之间的社交关系和签到特征,有效提 研究人员基于标签传播的社区发现方法研究
高了 LBSN 中社区发现的效率和质量。 如下。Li 等[50]基于标签传播提出了一种社区
基于非负矩阵分解的静态异质社区发 发现方法,通过主题挖掘揭示网络的高阶结
现方法通过将网络的邻接矩阵或相似性 矩 构,并提出一种新颖的投票策略建议(不仅考
阵分解为两个非负矩阵来揭示网络中的 社 虑连接的数量,还考虑连接的强度)进行标签
区结构。研究人员针对基于非负矩阵分解的 更新,有效地消除了标签选择的随机性,产
社区发现方法已经开展了相关研究。Su 等[43] 生更稳定的社区结构。Roghani 等[51]提出一种
提出了一种基于非负矩阵分解的社区发现方 基于局部平衡标签扩散的快速社区发现算法,
法,通过考虑高阶邻居的接近性,形成信息 其采用一种新的粗糙核构建方法来检测初始
更丰富的图正则化机制,消除了仅利用邻接 种子结点,并采用平衡标签扩散来扩展社区,
矩阵中的一阶邻近信息方法的局限性,提高 最后通过合并获得社区,该方法不仅收敛速
了社区发现的效率,但其仅适用于无向非重 度快,而且结果稳定、准确,而且该算法不
叠网络。Zhang 等[44]提出了一种联合图嵌入 存在随机性,参数可调。
和非负矩阵分解的学习模型,通过利用图嵌 基于生成对抗学习的静态异质社区发
入和网络的潜在结构同时学习特征提取和聚 现方法利用生成对抗网络来识别网络中 不
类,并通过目标函数将异构网络聚类问题转 同类型结点和边构成的社区结构。其通 过
化为约束优化问题,该方法在聚类指导下进 生成器和判别器之间的对抗过程来学习 网
行特征选择,提高了算法性能,同时节省了 络表示,从而发现社区。研究人员基于生成
算法的运行时间。Ma 等[45]提出了一种半监督 对 抗学 习的社 区发 现方法 相关 研究如 下 。
的联合非负矩阵分解算法,其将部分监督和 Zhang 等[12]利用生成对抗网络从训练数据中
NMF 进行整合,可作为多层网络中社区检测 学习社区发现的启发式方法,将社区生成建
的半监督聚类的通用框架,有效提高了多层 模为一个顺序决策过程,并开发了一个专门
网络中社区发现的效率,但其在大规模网络 的 GNN 来获取结点嵌入,提高了半监督社区
中表现不是很好。Kong 等[46]介绍了一种名为 发现算法的效率。
联合正交对称非负矩阵分解的社区发现方法, 2.2.4 现有研究的不足和未来研究方向
通过在因子矩阵上施加正交约束,改善了结 现有的静态异质社区发现方法虽然已经
点对社区的归属准确性,提高了复杂网络中 取得了一定的进展,但仍存在一些不足之处。
社区发现的效率和精度,但其仅适用于静态 许多现有的方法在处理结点属性时,往往只
网络。 考虑单一或有限的属性维度,而忽略了结点
基 于 随 机 块 模 型(Stochastic Block 可能具有的多重、复杂的属性信息。如果要
Model, SBM)的静态异质社区发现方法是一 考虑结点和社区的多种属性,计算复杂度就
种经典的社区发现技术,通过将网络划 分 会变高,从而难以应用于大规模网络。此外,
为多个社区,并为每个社区定义内部和 社 现实网络中的社区往往存在重叠现象,即一
区间的连接概率来模拟网络的生成过程 。 个结点可能属于多个社区。然而,许多现有
研究人员基于随机块模型的社区发现方法研 方法只能发现非重叠社区。因此,研究能够
究如下。Chen 等[47]提出了一种多层加权随机 处理多重属性并且计算复杂度较低的重叠社
块模型,通过对边缘权重进行建模,实现了 区发现方法,是未来值得关注的研究方向。
多层加权网络中的社区发现,但其时间复杂 2.3 动态同质社区发现方法综述
度较高。Naderipour 等[48]基于随机块模型, 2.3.1 问题定义
提出一种通用 2 型模糊社区发现模型,通过 定义图 Gt  (Vt , Et , At , Rt ) 是一个在时间 t
将一组层视为一组结点之间的各种关系,解
的子图,其中 Vt 是 t 时刻的结点集合, Et 是 t
决了结点间相互作用关系不确定的问题,提
高了多层网络中社区发现的效率。Qing 等[49] 时刻的边集合, At 是 t 时刻的结点类型集合,
基于随机块模型提出了 BiMMDF 模型,其是 Rt 是 t 时刻的边类型集合,动态图 G 表示为
混合隶属度随机块模型的扩展,该模型允许 G  {G1 , G2 ,..., GT } 其中 T 是时间步的总数,
邻接矩阵遵循任何分布,提高了重叠二分加 每个时间步对应的子图 Gt 对应一个静态图,
权网络中社区发现的效率。
表 示 在 特 定 时 间 点 的 网 络 状 态 ,
基于标签传播的静态异质社区发现方
Ct  {C1t , C2t ,..., Ckt } 是在时间 t 的一个社区划分,
法是通过模拟结点间的信息传播来识别 社
区结构。每个结点初始时被赋予一个唯 一 其中 Cit 是第 i 个社区的结点集合, Ct 随时间
的标签,随后通过迭代过程,结点会根 据 t 的变化而变化,表示社区的形成、合并、分
12 Computer Engineering and Applications

裂或消失。动态同质社区发现是指在结点类 矩阵、随机游走和路径表示四种方法。社区
型数量 | At | 1 且边类型数量 | Rt | 1 的动态图 发现方法部分对动态同质图中常用的社区发
G 中找到一个高质量动态社区划分序列 现方法进行归纳总结,详细介绍见 2.3.3 小节。
{C1 , C2 ,..., CT } 。 2.3.3 常见方法
常见的动态同质社区发现方法有基于非
2.3.2 核心架构
负矩阵分解的方法、基于多目标优化的方法、
动态同质社区发现的核心架构主要包括
基于深度学习的方法、基于影响最大化的方
动态同质图构造、动态同质图表示方法和动
法、基于聚类的方法和基于递归学习的方法,
态同质社区发现方法三部分,如图 6 所示。
动态同质图构造
各类方法的时间复杂度、核心方法、优点、
新增结点
局限性和适用网络对比如表 10 所示。
T1
基于非负矩阵分解的动态同质社区发
新增边
现方法通过将网络邻接矩阵分解为两个 非
删除结点
负矩阵来揭示网络的社区结构,并能够 适
删除边
应网络结构随时间的动态变化。研究人员基
T2
于非负矩阵分解的社区发现方法相关研究如
下。Ma 等[52]基于非负矩阵分解提出一种动态
网络中进化群落的协同正则演化方法,利用
前一时间步的网络和社区来表征聚类漂移,
并通过正则化将其纳入 Cr-ENMF 的目标函数
图表示方法 中,能够充分刻画网络的动态特性并准确地
图嵌入 邻接矩阵
平衡聚类精度和聚类漂移,但其时间复杂度
较高,不适用于大规模动态网络。
随机游走 路径表示 基于多目标优化的动态同质社区发现方
法通过考虑多个优化目标来识别动态网络中
社区发现方法
的社区结构。研究人员基于多目标优化的社
区发现方法相关研究如下。Shen 等[15]采用并
基于非负矩阵分解 基于多目标优化
行多目标进化优化来检测每个依赖于时间的
基于深度学习 基于影响最大化
子网络社区,其每个连通分量对应一个社区,
每个变化的连通分量的社区是基于时间相关
基于聚类 基于递归学习 子网络和时间无关子网络的先前连通分量形
成的,提高了动态社区发现算法的效率,但
图 6 动态同质社区发现核心架构 其不适用于动态加权网络。Sun 等[16]提出了
Fig.6 Dynamic homogenous community detection
一种基于粒子群优化的动态社区发现算法,
core architecture
动态同质图构造部分主要展示了动态同 其通过计算各结点的电阻距离得到网络中的
质图的构造形式,其所有结点类型一致,结 核心结点,核心结点和与其相关联的结点组
点之间边的类型也一致,但图结构会随时间 成一个社区,提高了动态社区发现算法的准
发生变化。图表示方法部分介绍了动态同质 确性和稳定性,但其不适用于重叠网络。
图中常用的几种方法,主要有图嵌入、邻接
表 10 动态同质社区发现方法
Table 10 Dynamic homogenous community detection method
方法名称 时间复杂度 核心方法 优点 局限性 适用网络
计算复杂度高
可解释性强
Cr-ENMF [52] O(ln 2  t kt ) 非负矩阵分解 局部最优解 高维稀疏网络
结构准确性高
参数敏感
PMOEO-DCD [15] - 结果质量高 计算量大 优化目标明确的
多目标优化
CNPSO [16] O( pop  ( m  n)  n 2 ) 可解释性强 参数敏感 网络
Spiderweb [18] O(| V t |) 计算复杂度高
表示学习能力强
ASCDA [19] - 深度学习 可解释性差 大规模网络
适应性强
CADENCE [53] - 参数敏感
适用动态变化 计算复杂度高 社区结构清晰的
HLCD 变体[54] - 结点影响力最大化
提高社区质量 参数敏感 网络
CoDeDANet [55] - 可扩展性强 局部最优解 社区结构清晰的
聚类
nwNMF [56] O(n 2 m  O(n3 (n  1))) 社区结构清晰 参数敏感 中小型网络
动态适应性 计算成本高
CDMIILG [17] O ( m) 递归学习 多类型网络
良好的泛化能力 参数敏感
13 Computer Engineering and Applications

基于深度学习的动态同质社区发现方 忆网络)来识别动态网络社区结构,这些方
法利用深度学习技术来处理和分析随时 间 法通过递归更新结点表示来捕捉时间序 列
变化的网络社区结构。研究人员基于深度学 数据中的动态模式。研究人员基于递归学习
习的社区发现方法相关研究如下。Yang 等[18] 的社区发现方法相关研究如下。Bolorunduro
提出了一种新的增量社区发现方法,该方法 等[17]提出了一种基于多层图的社区发现方法,
通过模拟蜘蛛网的进化过程来检测每个快照 使用层内和层间链接图来建模多个用户关系,
中的社区结构,其同时考虑了网络的平滑演 将增强版的社区挖掘算法与深度优先搜索方
化特性和每个快照中检测到的社区结构的质 法相结合,以在多层图中发现社区并进行优
量;因此,提取的结果不仅是高质量的,而 化实体搜索,具有线性时间复杂度,有效提
且保留了连续快照之间群落的进化平滑性。 高了多层图中社区发现的效率。
由于增量社区发现方法受初始网络社区和增 2.3.4 现有研究的不足和未来研究方向
量检测过程的影响,容易产生误差积累的问 在实际应用场景中,多数实体关系都是
题。为了解决上述问题,Jiang 等[19]提出了一 动态变化的,其对应的图结构也随着时间发
种通过合并和优化分裂社区来进行社区发现 生变化。因此,动态社区发现逐步成为当前
的算法,采用基于紧密相似度的社区发现算 研究热点。现有的动态同质社区发现方法已
法来查找第一快照的社区,然后从结点度值 经取得了一定的进展,但仍存在一些不足之
变化的角度,定义活跃结点并分配给某个社 处。比如,一些方法假设社区的演化是连续
区,将分配社区结构进一步分为由定义的添 的,即相邻时间步的社区结构变化较小。然
加边结点构建的本地社区和单例社区。通过 而,现实网络中的社区结构可能发生突变或
对分裂的社区结构进行合并和优化,检测出 快速变化,这些方法可能无法准确捕捉这些
最终的社区结构。McNeil 等[53]提出了一种基 变化。此外,动态网络中可能存在噪声和异
于网络社区内稳定交互时间框架的社区感知 常,如结点的突然消失或出现、边的异常变
网络状态检测方法,将动态网络建模为结点- 化等。现有方法在处理这些噪声和异常时可
结点-时间张量,并使用结构化规范多元分解 能表现不佳,导致社区发现的准确性下降。
和分段常数时间因子来迭代识别社区,提高 因此,研究能够处理社区结构突变和快速变
了社区发现算法的效率和可解释性。 化,且对噪声具有鲁棒性的动态社区发现方
基于结点影响最大化的动态同质社区 法是未来值得探讨的方向。
发现方法通过识别网络关键结点,最大 化 2.4 动态异质社区发现方法综述
信息传播,从而识别社区。基于结点影响最 2.4.1 问题定义
大化的社区发现方法如下。Samie 等[54]基于结 定义图 Gt  (Vt , Et , At , Rt ) 是一个在时间 t
点影响力最大化提出了一种社区发现方法,
的子图,其中 Vt 是 t 时刻的结点集合, Et 是 t
通过将网络建模为图表来寻找最具影响力结
点的新方法,改进了寻找初始结点的方式, 时刻的边集合, At 是 t 时刻的结点类型集合,
提高了动态社区发现的效率。 Rt 是 t 时刻的边类型集合,动态图 G 表示为
基于聚类的动态同质社区发现方法利 G  {G1 , G2 ,..., GT } 其中 T 是时间步的总数,
用聚类算法来处理网络数据,并结合时 间 每个时间步对应的子图 Gt 对应一个静态图,
信息捕捉网络的动态变化,以此发现社 区
表 示 在 特 定 时 间 点 的 网 络 状 态 ,
成员相似性。研究人员基于聚类的社区发现
Ct  {C1t , C2t ,..., Ckt } 是在时间 t 的一个社区划分,
方法相关研究如下。Márquez 等[55]提出了一
种基于谱聚类的动态属性网络中的社区发现 其中 Cit 是第 i 个社区的结点集合, Ct 随时间
算法,该算法同时使用链接和结点信息来发 t 的变化而变化,表示社区的形成、合并、分
现动态属性网络中的社区,提高了社区发现 裂或消失。动态同质社区发现是指在结点类
算法的效率和准确度。Li 等[56]提出一种基于 型数量 | At | 1 或边类型数量 | Rt | 1 的动态图
复杂网络构建的聚类方法,首先基于形状的 G 中找到一个高质量动态社区划分序列
距离(Shape-Based Distance, SBD)来描述两个 {C1 , C2 ,..., CT } 。
单变量时间序列(Univariate Time Series, UTS)
2.4.2 核心架构
之 间 的 相 似 性 , 然 后 结 合 最 近 邻 算 法(𝜖-
动态异质社区发现的核心架构主要包括
Nearest Neighbor Algorithm,   NN )来构建网
动态异质图构造、动态异质图表示方法和动
络,最后通过矩阵分解获得模糊隶属度矩阵
并生成聚类结果,有效提高了聚类精度和质 态异质社区发现方法三部分,如图 7 所示。
量。 动态异质图构造部分主要展示了动态异
基于递归学习的动态同质社区发现方 质图的构造形式,其结点类型和边的类型不
法利用递归神经网络及其变体(如长短期记 单一且图结构会随时间发生变化,图中不同
14 Computer Engineering and Applications

颜色的圆圈代表不同类型的结点,不同颜色 常见的动态异质社区发现方法有基于图神经
的直线代表不同类型的边。图表示方法部分 网络的方法、基于随机游走的方法、基于模块化
的方 法、基于矩阵扩展的方法、基于网络嵌
介绍了动态异质图中常用的几种方法,主要
入的方法、基于流随机块模型的方法、基于
有图嵌入、邻接矩阵、随机游走、路径表示、
隐马尔可夫模型的方法和基于深度学习的方
自动编码器和图神经网络六种方法。社区发
法,各类方法的时间复杂度、核心方法、优
现方法部分对动态异质图中常用的社区发现 点、局限性和适用网络对比如表 11 所示。
方法进行了归纳总结,详细介绍见 2.4.3 小节。 基于图神经网络的动态异质社区发现方
动态异质图构造 法通过结合图神经网络和动态网络分析技术,
T1 结点类型1
有效地跟踪和处理动态异质网络中的结构变
结点类型2 化,实时更新社区结构。研究人员基于图神
边类型1
经网络的社区发现方法相关研究如下。Zheng
边类型2
等[20]提出了时间异构图卷积网络,其利用一
新增结点
T2
组时间异构图的学习特征表示来检测社区,
新增边
解决了异构图数据会随着时间的推移而动态
删除结点
变化,使得大多数现有的社区发现方法失效
删除边
的问题,且该方法具有可扩展性。Gong 等[21]
提出一种对抗性时间图表示学习框架,它通
图表示方法 过注意力机制捕获更有效的时空特征,采用
图嵌入 邻接矩阵
对抗性训练来指导时间图表示的学习,并优
化可测量的模块化损失,以最大化社区的模
随机游走 路径表示 块化,提高社区发现的效率和质量。
基于随机游走的动态异质社区发现方
自动编码器 图神经网络
法是通过模拟随机结点在网络中的移动 过
程,从而揭示网络的局部聚集特性。研究人
社区发现方法
员基于随机游走的社区发现方法相关研究如
基于图神经网络 基于随机游走
下。Yin 等[23]基于随机游走提出一种用于大规
模动态社区发现的多目标进化聚类算法,对
基于模块化 基于矩阵扩展
传统的进化聚类框架和粒子群算法分别进行
基于网络嵌入 基于流随机块模型 了修改和增强,提高了社区发现的效率和准
确性。Jia 等[24]提出了一个检测多层空间相互
基于隐马尔可夫模型 基于深度学习 作用网络中的动态社区并研究其时空模式的
框架,其采用随机游走合并不同权值的网络
图 7 动态异质社区发现核心架构
Fig.7 Dynamic heterogeneous community detection
层,采用 Leiden 技术检测动态社区,采用探
core architecture 索性分析方法检查时空模式。
2.4.3 常见方法
表 11 动态异质社区发现方法
Table 11 Dynamic heterogeneous community detection method
方法名称 时间复杂度 核心方法 优点 局限性 适用网络
THGCN [20] O(| E | Cd  | V | d ) 表示学习能力强 计算复杂度高
图神经网络 大规模网络
ATGRL [21] - 可扩展性 参数敏感
DYN-MODPSO [23] O(n log n) 时间复杂度低 结果随机性
随机游走 大规模网络
MDDUMC[24] - 适应性强 参数敏感
适用性广泛 局部最优解
DynaMo [57] O ( m / n) 模块化 中等规模网络
模型泛化性好 计算成本大
[58]
DDCSBM - 计算复杂度高
矩阵扩展 可扩展性 大规模网络
CDMA [59] O(n3  m1.5 ) 噪声敏感
计算复杂度高
MFLCD[60] O(n 2 ) 网络嵌入 表示学习能力强 多类型网络
参数敏感
计算复杂度高
可解释性强
STREAMBP[61] - 随机块模型 局部最优解 中等规模网络
可扩展性强
参数敏感
计算复杂度高
HMM-MODCD [62] O(n 2 ) 隐马尔可夫模型 时序建模能力 中小型动态网络
参数敏感
计算复杂度高
表示学习能力强
AC2CD [22] - 深度学习 可解释性差 大规模网络
适应性强
参数敏感
15 Computer Engineering and Applications

模块化方法侧重于优化网络的模块化 社区,解决了简单随机块模型下社区发现受
得分,用该得分衡量社区内部连接的紧密 限制的问题。
程度与社区间连接的稀疏程度。研究人员基 隐 马 尔可 夫模 型 是一 种时 序 概率 模型,
于 模块化 的社 区发现 方法 相关研 究如 下。 能够很好地捕捉网络社区结构随时间变化
[57]
Zhuang 等 提出了一种新的基于模块化的自 的动态特性。研究人员基于隐马尔可夫模型
适应增量算法,实现了在动态网络社区结构 的社区发现方法相关研究如下。Abbood 等[62]
更新的同时使模块化增益的增量最大化,其 基于隐马尔可夫模型提出了一种动态社区发
社区发现效果与重复应用静态算法一样有效。 现多目标进化算法,定义多目标优化问题来
基于矩阵扩展的动态异质社区发现方 考虑社区内和社区间的不同结构,将社区演
法对网络的邻接矩阵或特征矩阵进行扩展, 化问题表述为隐马尔可夫模型来跟踪最可能
以适应网络结构的动态变化和异质性,并 的 社区序 列, 然后采 用多 目标进 化算 法和
通过在矩阵上应用各种数学和计算技术来 Viterbi 算法来制定目标函数并为聚类动态网
发现和跟踪社区结构。研究人员基于矩阵扩 络提供了时间平滑性。
展的社区发现方法相关研究如下。Dall'Amico 基于深度学习的动态异质社区发现方
[58]
等 提出了一种基于 Bethe-Hessian 矩阵扩展 法利用深度学习技术来处理和分析动态异
的快速谱算法,该算法利用类标签及其时间 质网络中的社区结构。研究人员基于深度学
演化的正相关特性来检测社区,适用于任何 习的社区发现方法相关研究如下。Costa 等[22]
具有社区结构的动态图。Li 等[59]提出了一种 基于深度强化学习策略提出了用于动态社交
基于模体感知的多路复用网络社区发现算法, 网络中社区发现的 Actor-Critic(AC2CD)架构,
通过将多层网络聚合成单层复合网络,挖掘 其使用模块化密度函数的局部优化策略来处
每一层网络的高阶结构,并基于邻接矩阵和 理大型动态网络,提高了社区发现的效率,
模式邻接矩阵进行加权聚合,然后利用单层 但模型稳定性还有很大发展空间。
复合网络中的信息传播将网络中的结点转换 2.4.4 现有研究的不足和未来研究方向
为向量,以此在多层网络中发现社区。 现有动态异质社区发现方法虽然已经取
基于网络嵌入的动态异质社区发现方 得了一定的进展,但仍存在一些不足之处。
法,利用图嵌入技术学习结点嵌入。在较 许多现有方法在处理结点的异质属性时,往
低维度空间中表示结点,同时保留结点的 往只考虑有限或单一的属性维度,而忽略了
关系和社区结构。当网络动态变化时,随 结点可能具有的多重、复杂异质属性,并且
着网络的发展而动态更新网络嵌入表示。 动态图中的结点、边和属性会随时间发生变
研究人员基于网络嵌入的社区发现方法相关 化,可能会产生重叠结点或社区。这导致难
研究如下。Fani 等[60]提出了一种基于时间内 以全面、准确地揭示网络社区结构随时间发
容相似性的神经嵌入学习方法,通过神经图 生的变化。同时考虑网络的动态性和结点的
嵌入根据用户的社交网络连接来学习用户嵌 多重异质属性,动态异质社区发现的计算复
入,然后系统地插值基于时间内容的嵌入和 杂度通常较高,这使得现有方法难以应用于
基于社交链接的嵌入,以捕获代表用户的社 大规模动态网络。因此,研究能够在有多重
交网络连接和时间内容演变,以此产生的社 属性的动态异质图中进行重叠社区发现且计
区具有较高的质量。 算复杂度较低的方法是未来的发展方向之一。
基于随机块模型的动态异质社区发现 3 社区发现的应用领域
方法通过定义不同社区间及内部结点连接 3.1 社区发现在问答领域的应用
的概率来模拟网络生成过程,并能够适应 问答社区主要由用户、问题和答案组成,
网络结构和结点类型的多样性变化。研究人 其包含了大量的交互信息,这些信息往往是
员基于流随机块模型的社区发现方法相关研 复杂的,并且会随着时间而发生变化。因此,
[61]
究如下。Wu 等 基于流随机块模型开发了一 动态异质社区发现方法在问答领域有广泛的
种流信念传播方法,能够在动态网络中发现 应用。Wu 等[2]将社区发现应用在问答领域,
16 Computer Engineering and Applications

提出了一种基于图神经网络的异构问答社区 3.4 社区发现在信息传播优化领域的


发现方法(Heterogeneous Community Detection 应用
Approach Base on Graph Neural Network, 在信息传播网络中,通过社区发现可
HCDBG), 用 于 检 测 社 区 问 答(Community 以找到关键结点和社区,这些结点和社区
Question Answer,CQA)中的异构社区。首先, 在信息传播过程中起着重要作用。针对这
基于用户交互行为定义实体关系,并采用异 些关键结点和社区进行信息投放,可以有
构信息网络统一表示所有连接。之后,利用 效提高信息的传播效率和覆盖范围。Du 等
异构图神经网络融合节点的内容和拓扑特征 [67]
提出了三种算法来实现社交网络中关键人
进行图嵌入。最后,将 CQA 中的社区检测问 物 的 识 别 。 首 先 是 基 于 Q-模 块 化 增 益(Q-
题转换为异构信息网络中的实体聚类任务, HAM)(Q-Modularity Gain)的改进谐波模块化
并改进 k-means 方法以实现异构社区检测。 算法,该算法可以推断社区划分并对关键结
3.2 社区发现在内容推荐领域的应用 点进行排序。第二种是基于两步流理论的社
推荐系统通过对用户的兴趣和行为进行 会等级和社区结构调节网络嵌入 (Social Rank
分析,帮助用户发现他们可能感兴趣的内容, and Community Structure-Regulated Network
从而提供更好的用户体验和满足用户需求。 Embedding, RaComNE)模型,该模型依赖于
社区发现技术在推荐领域也有广泛的应用。 关键结点等级和社区分配,以监督的方式指
Satuluri 等[1]基于社区发现在 Twitter 上进行异 导网络表征学习和社会等级推理。最后,提
构推荐,提出了一种基于 Metropolis-Hastings 出 了 一 种 关 键 人 物 检 测 算 法 (Key Figure
抽样的社区发现方法,它比已有的替代方案 Detection Algorithm, KFDA),该算法通过添加
更准确,速度也更快。Sheng 等[63]利用社区发 微调步骤将 Q-HAM 和 RaComNE 集成到一个
现算法和图神经网络的协同过滤推荐算法解 框架中,提高了关键人物检测的效率。
决了在稀疏数据场景下协同过滤方法推荐效
3.5 社区发现在图像理解领域的应用
果较差的问题。社区发现算法帮助挖掘用户 图像理解就是生成图像的语义描述,已
之间的潜在属性,从而设计出更优于标准推 有研究人员利用社区进行图像理解。Li 等[68]
荐方法和基于图神经网络的最新协同过滤推 提 出 了 一 种 新 颖 的 深 度 协 作 嵌 入(Deep
荐方法的推荐算法。Rostami 等[64]提出一种食 Collaborative Embedding, DCE)模型,该模型
物推荐系统,其结合协同过滤和基于内容的 从弱监督的社区资源中学习知识,可同时用
模型,利用用户相似性和食物组进行推荐。 于多个图像理解任务。Li 等[69]提出了一种新
3.3 社区发现在社交网络分析领域的 颖 的 半 监 督 非 负 矩 阵 分 解(Semi Supervised
应用 Nonnegative Matrix Factorization, RSNMF)模型,
在社交网络中,通过社区发现可以识 利用数据块对角线结构来学习图像表示。
别出具有相似兴趣或行为模式的用户群体。
4 未来研究方向和关键挑战
这有助于理解信息如何在社交网络中传播, 目前研究人员已经针对复杂网络下的社区
以及如何通过识别关键用户来促进信息传 发现开展了一定的研究,但仍面临一些挑战。
播。这种方法已被用于仇恨言论检测和垃圾 本节简要讨论现阶段面临的挑战,并指出未
邮件发送者检测等任务。Mossie 等[65]利用社 来社区发现领域有价值的研究方向。
区发现技术提出了一种仇恨言论检测方法来
4.1 动态重叠社区发现
识别社交媒体上对弱势群体的仇恨言论。Wu 在图结构中,若每个结点只属于一个社
等[66]提出了一种基于图卷积网络的半监督社 区,则其为非重叠社区;若网络中的某些结
交垃圾邮件检测模型,该模型利用马尔可夫 点同时属于多个社区则为重叠社区[70]。重叠
随机场(Markov Random Fields, MRF)层来捕获 社区存在于现实场景中的各个领域,例如社
用户关注关系中的人类直觉以改进 GCN 做出 交网络分析、生物信息学、网络推荐等。它
的预测。 反映了实际场景中结点的复杂特征,并为隐
藏模式的结构发现奠定基础。现有的重叠社
17 Computer Engineering and Applications

区发现研究多针对于静态图,Chen 等[71]将社 权重和方向性。在大规模复杂网络中进行社


区和顶点之间的关联映射到嵌入空间,提出 区发现需要综合考虑各种属性以及联系。Su
一种对抗学习方法来建模重叠的顶点社区。 等 [78] 提 出 了 一 种 并 行 多 目 标 进 化 算 法
Lu 等[72]采用基于结点重要性升序的固定标签 PMOEA(Parallel Multi-Objective Evolutionary
传播序列和基于邻居结点影响的标签更新策 Algorithms)用于大规模复杂网络中的社区发
[73]
略来检测重叠社团结构。Teng 等 提出了一 现,其中与关键网络结点相关的社区被并行
种基于相似属性的多目标进化算法用于实现 检测。Zhang 等 [79] 提出了一种基于网络约简
属性网络中的重叠社区发现。Tran 等[74]为了 的多目标进化算法,用于大规模网络中的社
解决不完全网络环境下的重叠社区结构发现 区发现,其中网络的规模随着进化的进行而
问 题 , 引 入 一 个 基 于 Kronecker 图 模 型 的 递归地减小。Zhe 等 [80] 提出了一种基于属性
KroMFac 框架,通过正则化非负矩阵分解进 和拓扑信息的大型混合属性网络团体检测的
行重叠社区发现。 实用框架 AGGMMR,研究在大型复杂属性
然而,随着现代应用数据的复杂化和实 网络中进行社区发现。然而,现有算法时空
时性,网络社区结构往往呈现出动态变化的 复杂度偏高,社区发现的精确性不稳定。因
特点。随着社区结构的变化,不同社区中的 此,未来研究的关键挑战在于如何提高算法
结点也有很大的可能会重叠。因此,动态重 的效率和精确性。此外,随着社交网络和电
叠社区发现的关键挑战在于如何实时追踪和 商系统等线上网络的快速发展,网络规模急
捕捉社区变化,准确划分结点的归属关系。 速增长,所提出的算法也应具有良好的可扩
4.2 面向多属性视图网络的社区发现 展性,以处理不断增长的数据量。
多属性视图网络是一种复杂的网络结构, 5 结束语
它不仅包含多个网络视图(视图可以是不同的 社区发现是图研究的一项基本任务,随
网络拓扑结构或者是从不同角度观察的网络), 着图结构的异质性和动态性特征逐步凸显,
而且每个视图上的结点还带有多种属性信息。 针对异质图和动态图的社区发现也成为了热
这种网络结构能够更全面地描述和捕捉现实 点研究话题。本文将社区发现研究从异质性
世界中实体间的复杂关系和特性。社区发现 和动态性角度分为:静态同质社区发现、静
在多属性视图网络中尤为重要,因为它可 态异质社区发现、动态同质社区发现和动态
以帮助我们理解不同视图和属性如何共同 异质社区发现,分别总结不同类别的研究现
影响网络的社区结构。然而现有属性图研 状和应用领域,指出社区发现当下面临的挑
[75]
究大都针对于单一视图网络 , Chen 等 通 战和未来的研究方向。本文希望能为后续社
过检查属性的子空间,将社区发现视为一个 区发现研究提供一定的参考和指导,促进社
优化问题,提出了一种新的属性网络中的社 区发现领域的进一步发展。
[76]
区发现方法。Ji 等 基于约束正交非负矩阵
三因子共聚异构结点提出了 SCHAIN 算法, 参考文献
解 决了异 构属 性图中 结点 的共聚 类问 题 。 [1] SATULURI V, WU Y, ZHENG X ,et al.SimClust
[77]
Zheng 等 提出了连续编码方法来解决属性 ers: Community-Based Representations for Heter
网络中的重叠社区检测问题。处理多属性视 ogeneous Recommendations at Twitter[C]//ACM
图网络的关键挑战在于如何有效地整合不 SIGKDD Conference on Knowledge Discovery a
同视图的结构信息以及每个视图上的结点 nd Data Mining.2020:3183-3193.
属性,以发现网络中的模式和社区结构。 [2] WU Y L, FU Y, XU J W ,et al.Heterogeneous Qu
4.3 大规模复杂网络中的社区发现 estion Answering Community Detection Based o
大规模复杂网络指的是拥有大量结点和 n Graph Neural Network[J].Information Sciences,
复杂连接模式的网络。这种网络通常由许多 2023,621:652-671.
结点和它们之间的连接组成,结点之间的连 [3] DOLUCA O, OGUZ K.APAL: Adjacency Propag
接关系可能是非线性的,且可能具有不同的 ation Algorithm for Overlapping Community Det
18 Computer Engineering and Applications

ection in Biological Networks[J].Information Sci 36(2):739-780.


ences,2021,579:574-590. [14] OKUDA M, SATOH S I, SATO Y ,et al.Commun
[4] SUN H, HE F, HUANG J ,et al.Network Embedd ity Detection Using Restrained Random-Walk Si
ing for Community Detection in Attributed Netw milarity[J].IEEE Transactions on Pattern Analysis
orks[J].ACM Transactions on Knowledge Discov and Machine Intelligence,2021,43(1):89-103.
ery from Data,2020,14(3):36:1-36:25. [15] SHEN X, YAO X, TU H ,et al.Parallel Multi-Obj
[5] ZHOU X, SU L, LI X ,et al.Community Detectio ective Evolutionary Optimization Based Dynamic
n Based on Unsupervised Attributed Network Em Community Detection in Software Ecosystem[J].
bedding[J].Expert Systems with Applications,202 Knowledge-Based Systems,2022,252:109404.
3,213:118937. [16] SUN Y, SUN X, LIU Z ,et al.Core Node Knowled
[6] ZHANG W, SHANG R, JIAO L.Large-Scale Co ge based Multi-Objective Particle Swarm Optimi
mmunity Detection Based on Core Node and Lay zation for Dynamic Community Detection[J].Co
er-by-Layer Label Propagation[J].Information Sci mputers & Industrial Engineering,2023,175:1088
ences,2023,632:1-18. 43.
[7] YE F H, CHEN C, WEN Z Y ,et al.Homophily Pr [17] BOLORUNDURO J O, ZOU Z.Community Dete
eserving Community Detection[J].IEEE Transacti ction On Multi-Layer Graph Using Intra-Layer an
ons on Neural Networks and Learning Systems,2 d Inter-Layer Linkage Graphs (CDMIILG)[J].Ex
020,31(8):2903-2915. pert Systems with Applications,2024,238:121713.
[8] BASUCHOWDHURI P, SIKDAR S, NAGARAJ [18] YANG H, CHENG J, SU X ,et al.A Spiderweb M
AN V ,et al.Fast Detection of Community Structu odel for Community Detection in Dynamic Netw
res Using Graph Traversal in Social Networks[J]. orks[J].Applied Intelligence,2021,51(7):5157-51
Knowledge and Information Systems,2019,59(1): 88.
1-31. [19] JIANG W, ZHANG X.Dynamic Community Dete
[9] FEI R, WAN Y, HU B ,et al.A Novel Network Co ction Algorithm based on Allocating and Splitting
re Structure Extraction Algorithm Utilized Variati [C]//IEEE International Conference on Tools with
onal Autoencoder for Community Detection[J].E Artificial Intelligence.2022:1132-1137.
xpert Systems with Applications,2023,222:11977 [20] ZHENG Y P, ZHANG X F, CHEN S Y ,et al.Whe
5. n Convolutional Network Meets Temporal Hetero
[10] SUN J Y, ZHENG W, ZHANG Q F ,et al.Graph N geneous Graphs: An Effective Community Detect
eural Network Encoding for Community Detectio ion Method[J].IEEE Transactions on Knowledge
n in Attribute Networks[J].IEEE Transactions on and Data Engineering,2023,35(2):2173-2178.
Cybernetics,2022,52(8):7791-7804. [21] GONG C, JING C, SHEN Y ,et al.Dynamic Com
[11] LIU H, WEI J, XU T.Community Detection Base munity Detection via Adversarial Temporal Grap
d on Community Perspective and Graph Convolu h Representation Learning[C]//International Conf
tional Network[J]. Expert Systems with Applicati erence on Neural Computing for Advanced Appli
ons,2023,231:120748. cations.2022:1-13.
[12] ZHANG Y, XIONG Y, YE Y ,et al.SEAL: Learni [22] COSTA A R, RALHA C G.AC2CD: An Actor-Cr
ng Heuristics for Community Detection with Gen itic Architecture for Community Detection in Dyn
erative Adversarial Networks[C]//ACM SIGKDD amic Social Networks[J].Knowledge-Based Syste
Conference on Knowledge Discovery and Data ms,2023,261:110202.
Mining.2020:1103-1113. [23] YIN Y, ZHAO Y H, LI H ,et al.Multi-Objective E
[13] TOTH C, HELIC D, GEIGER B C.Synwalk: Co volutionary Clustering for Large-Scale Dynamic
mmunity Detection via Random Walk Modelling Community Detection[J].Information Sciences,20
[J].Data Mining and Knowledge Discovery,2022, 21,549:269-287.
19 Computer Engineering and Applications

[24] JIA T, CAI C, LI X ,et al.Dynamical Community [34] HE C, CHENG J, CHEN G ,et al.Multiple Topics
Detection and Spatiotemporal Analysis in Multila Community Detection in Attributed Networks[C]
yer Spatial Interaction Networks Using Trajectory //International ACM SIGIR Conference on Resea
Data[J].Int. J. Geogr. Inf. Sci.,2022,36(9):1719-1 rch and Development in Information Retrieval.20
740. 23:2199-2203.
[25] CHAKRABORTY T, DALMIA A, MUKHERJEE [35] QIN M, ZHANG C, BAI B ,et al.Towards a Bette
A ,et al.Metrics for Community Analysis: A Surv r Tradeoff between Quality and Efficiency of Co
ey[J].ACM Computing Surveys,2017,50(4):54:1- mmunity Detection: An Inductive Embedding Me
54:37. thod across Graphs[J].ACM Transactions on Kno
[26] LIU X, CHENG H M, ZHANG Z Y.Evaluation o wledge Discovery from Data,2023,17(9):127:1-1
f Community Detection Methods[J].IEEE Transa 27:34.
ctions on Knowledge and Data Engineering,2020, [36] WANG Z, LIANG Y B, JI P S.Spectral Algorithm
32(9):1736-1746. s for Community Detection in Directed Networks
[27] LUO X, LIU Z G, JIN L ,et al.Symmetric Nonneg [J].Journal of Machine Learning Research,2020,2
ative Matrix Factorization-Based Community Det 1:153:1-153:45.
ection Models and Their Convergence Analysis[J]. [37] CHEN L, GAO Y J, HUANG X R ,et al.Efficient
IEEE Transactions on Neural Networks and Lear Distributed Clustering Algorithms on Star-Schem
ning Systems,2022,33(3):1203-1215. a Heterogeneous Graphs[J].IEEE Transactions on
[28] NI L, GE J, ZHANG Y ,et al.Semi-Supervised Lo Knowledge and Data Engineering,2022,34(10):4
cal Community Detection[J].IEEE Transactions o 781-4796.
n Knowledge and Data Engineering,2024,36(2):8 [38] MEI J P, LV H J, YANG L H ,et al.Clustering for
23-839. Heterogeneous Information Networks with Exten
[29] KANG D Y, LEE W, LEE Y-C ,et al.A Framewor ded Star-Structure[J].Data Mining and Knowledg
k for Accurate Community Detection on Signed N e Discovery,2019,33(4):1059-1087.
etworks Using Adversarial Learning[J].IEEE Tra [39] LI X, KAO B, REN Z C ,et al.Spectral Clustering
nsactions on Knowledge and Data Engineering,20 in Heterogeneous Information Networks[C]//AA
23,35(11):10937-10951. AI Conference on Artificial Intelligence.2019:422
[30] ZHU W, CHEN C, PENG B.Unified Robust Netw 1-4228.
ork Embedding Framework for Community Dete [40] DALL'AMICO L, COUILLET R, TREMBLAY N.
ction via Extreme Adversarial Attacks[J].Informa Revisiting the Bethe-Hessian: Improved Commun
tion Sciences,2023,643:119200. ity Detection in Sparse Heterogeneous Graphs[C]
[31] WANG Y, CAO J, BU Z ,et al.Dual Structural Co //Conference on Neural Information Processing S
nsistency Preserving Community Detection on So ystems.2019:4039-4049.
cial Networks[J].IEEE Transactions on Knowledg [41] QING H, WANG J.Community Detection for We
e and Data Engineering,2023,35(11):11301-1131 ighted Bipartite Networks[J].Knowledge-Based S
5. ystems,2023,274:110643.
[32] ZHOU J, CHEN Z, DU M ,et al.RobustECD: Enh [42] XU D, CHEN Y, CUI N ,et al.Towards Multi-Dim
ancement of Network Structure for Robust Comm ensional Knowledge-Aware Approach for Effecti
unity Detection[J].IEEE Transactions on Knowle ve Community Detection in LBSN[J].World Wid
dge and Data Engineering,2023,35(1):842-856. e Web,2023,26(4):1435-1458.
[33] WANG B, CAI X, XU M ,et al.A Graph-Enhance [43] SU S, GUAN J, CHEN B ,et al.Nonnegative Matr
d Attention Model for Community Detection in M ix Factorization Based on Node Centrality for Co
ultiplex Networks[J].Expert Systems with Applic mmunity Detection[J].ACM Transactions on Kno
ations,2023,230:120552. wledge Discovery from Data,2023,17(6):84:1-84:
20 Computer Engineering and Applications

21. nference on Data Mining.2023:1-9.


[44] ZHANG B H, GONG M G, HUANG J B ,et al.Cl [54] SAMIE M E, BEHBOOD E, HAMZEH A.Local
ustering Heterogeneous Information Network by Community Detection Based on Influence Maxim
Joint Graph Embedding and Nonnegative Matrix ization in Dynamic Networks[J].Applied Intellige
Factorization[J].ACM Transactions on Knowledg nce,2023,53(15):18294-18318.
e Discovery from Data,2021,15(4):73:1-73:25. [55] MáRQUEZ R, WEBER R.Dynamic Community
[45] MA X K, DONG D, WANG Q.Community Detec Detection Including Node Attributes[J].Expert Sy
tion in Multi-Layer Networks Using Joint Nonne stems with Applications,2023,223:119791.
gative Matrix Factorization[J].IEEE Transactions [56] LI H, DU T, WAN X.Time Series Clustering Base
on Knowledge and Data Engineering,2019,31(2): d on Relationship Network and Community Dete
273-286. ction[J].Expert Systems with Applications,2023,2
[46] KONG Q, SUN J, XU Z.Joint Orthogonal Symm 16:119481.
etric Non-Negative Matrix Factorization for Com [57] ZHUANG D, CHANG J M, LI M C.DynaMo: D
munity Detection in Attribute Network[J].Knowle ynamic Community Detection by Incrementally
dge-Based Systems,2024,283:111192. Maximizing Modularity[J].IEEE Transactions on
[47] CHEN Y, MO D X.Community Detection for Mu Knowledge and Data Engineering,2021,33(5):193
ltilayer Weighted Networks[J].Information Scienc 4-1945.
es,2022,595:119-141. [58] DALL'AMICO L, COUILLET R, TREMBLAY N.
[48] NADERIPOUR M, ZARANDI M H F, BASTAN Community Detection in Sparse Time-Evolving G
I S.A Multilayer General Type-2 Fuzzy Communi raphs with a Dynamical Bethe-Hessian[C]//Confe
ty Detection Model in Large-Scale Social Networ rence on Neural Information Processing Systems.
ks[J].IEEE Transactions on Fuzzy Systems,2022, 2020:7486-7497.
30(10):4494-4503. [59] LI C, GUO X, LIN W ,et al.Multiplex Network C
[49] QING H, WANG J.Bipartite Mixed Membership ommunity Detection Algorithm Based on Motif A
Distribution-Free Model. A Novel Model for Com wareness[J].Knowledge-Based Systems,2023,260:
munity Detection in Overlapping Bipartite Weigh 110136.
ted Networks[J].Expert Systems with Application [60] FANI H, JIANG E, BAGHERI E ,et al.User Com
s,2024,235:121088. munity Detection via Embedding of Social Netwo
[50] LI P-Z, HUANG L, WANG C-D ,et al.Communit rk Structure and Temporal Content[J].Information
y Detection by Motif-Aware Label Propagation[J]. Processing and Management,2020,57(2):102056.
ACM Transactions on Knowledge Discovery fro [61] WU Y, TARDOS J, BATENI M ,et al.Streaming
m Data,2020,14(2):22:1-22:19. Belief Propagation for Community Detection[C]/
[51] ROGHANI H, BOUYER A.A Fast Local Balance /Conference on Neural Information Processing Sy
d Label Diffusion Algorithm for Community Dete stems.2021:26976-26988.
ction in Social Networks[J].IEEE Transactions on [62] ABBOOD A D, ATTEA B A A, HASAN A A ,et a
Knowledge and Data Engineering,2023,35(6):54 l.Community Detection Model for Dynamic Netw
72-5484. orks Based on Hidden Markov Model and Evolut
[52] MA X K, ZHANG B H, MA C Z ,et al.Co-Regula ionary Algorithm[J].Artificial Intelligence Revie
rized Nonnegative Matrix Factorization for Evolv w,2023,56(9):9665-9697.
ing Community Detection in Dynamic Networks [63] SHENG J, LIU Q, HOU Z A ,et al.A Collaborativ
[J].Information Sciences,2020,528:265-279. e Filtering Recommendation Algorithm Based on
[53] MCNEIL M, MATTSSON C, TAKES F W ,et al. Community Detection and Graph Neural Networ
CADENCE: Community-Aware Detection of Dy k[J].Neural Processing Letters,2023,55(6):7095-7
namic Network States[C]//SIAM International Co 112.
21 Computer Engineering and Applications

[64] ROSTAMI M, FARRAHI V, AHMADIAN S ,et a 21,51(1):138-150.


l.A Novel Healthy and Time-Aware Food Recom [74] TRAN C, SHIN W-Y, SPITZ A.Community Dete
mender System Using Attributed Community Det ction in Partially Observable Social Networks[J].
ection[J].Expert Systems with Applications,2023, ACM Transactions on Knowledge Discovery fro
221:119719. m Data,2022,16(2):22:1-22:24.
[65] MOSSIE Z, WANG J-H.Vulnerable Community I [75] CHEN H R, YU Z J, YANG Q L ,et al.Communit
dentification Using Hate Speech Detection on So y Detection in Subspace of Attribute[J].Informati
cial Media[J].Information Processing and Manag on Sciences,2022,602:220-235.
ement,2020,57(3):102087. [76] JI Y G, SHI C, FANG Y ,et al.Semi-Supervised C
[66] WU Y, LIAN D, XU Y ,et al.Graph Convolutiona o-Clustering on Attributed Heterogeneous Inform
l Networks with Markov Random Field Reasonin ation Networks[J].Information Processing and M
g for Social Spammer Detection[C]//AAAI Confe anagement,2020,57(6):102338.
rence on Artificial Intelligence.2020:1054-1061. [77] ZHENG W, SUN J, ZHANG Q ,et al.Continuous
[67] DU Y, ZHOU Q, LUO J ,et al.Detection of Key F Encoding for Overlapping Community Detection
igures in Social Networks by Combining Harmon in Attributed Network[J].IEEE Transactions on C
ic Modularity with Community Structure-Regulat ybernetics,2023,53(9):5469-5482.
ed Network Embedding[J].Information Sciences, [78] SU Y, ZHOU K, ZHANG X ,et al.A Parallel Mult
2021,570:722-743. i-Objective Evolutionary Algorithm for Commun
[68] LI Z, TANG J, MEI T.Deep Collaborative Embed ity Detection in Large-Scale Complex Networks
ding for Social Image Understanding[J].IEEE Tra [J].Information Sciences,2021,576:374-392.
nsactions on Pattern Analysis and Machine Intelli [79] ZHANG X, ZHOU K, PAN H ,et al.A Network R
gence,2019,41(9):2070-2083. eduction-Based Multiobjective Evolutionary Algo
[69] LI Z, TANG J, HE X.Robust Structured Nonnega rithm for Community Detection in Large-Scale C
tive Matrix Factorization for Image Representatio omplex Networks[J].IEEE Transactions on Cyber
n[J].IEEE Transactions on Neural Networks and netics,2020,50(2):703-716.
Learning Systems,2018,29(5):1947-1960. [80] ZHE C, SUN A X, XIAO X.Community Detectio
[70] GUPTA S K, SINGH D P, CHOUDHARY J.A Re n on Large Complex Attribute Network[C]//ACM
view of Clique-Based Overlapping Community D SIGKDD Conference on Knowledge Discovery a
etection Algorithms[J].Knowledge and Informatio nd Data Mining.2019:2041-2049.
n Systems,2022,64(8):2023-2058.
[71] CHEN J Y, GONG Z G, MO J Q ,et al.Self-Traini
ng Enhanced: Network Embedding and Overlapp
ing Community Detection with Adversarial Learn
ing[J].IEEE Transactions on Neural Networks an
d Learning Systems,2022,33(11):6737-6748.
[72] LU M, ZHANG Z, QU Z ,et al.LPANNI: Overlap
ping Community Detection Using Label Propagat
ion in Large-Scale Complex Networks[J].IEEE T
ransactions on Knowledge and Data Engineering,
2019,31(9):1736-1749.
[73] TENG X, LIU J, LI M.Overlapping Community
Detection in Directed and Undirected Attributed
Networks Using a Multiobjective Evolutionary A
lgorithm[J].IEEE Transactions on Cybernetics,20

You might also like