复杂网络-社会网络分析

“社会网络”是指社会成员及其关系的集合。社会网络中的“点”是指所有的社会成员,而社会网络中的“边”是指成员之间的各种社会关系。成员之间的关系可以是有向的,也可以是无向的。同时,社会关系可以表现为多种形式,如人与人之间的友谊、上下级关系、科研合作关系、组织成员之间的交往关系、国家之间的贸易关系等。社会网络分析是社会网络理论中的一个具体工具,就是定量研究社会网络中行动者之间的关系。

因此,社会网络分析的重点是关系和关系模型,所采用的途径和方法在概念上不同于传统的统计分析和数据处理方法。

社交网络通常表示人类个体通过各种关系联系在一起,如朋友、婚姻、商业等。,而这些联系在宏观上表现出一定的模式。早年,一些社会学家开始关注人们的交流模式。Ebel等人进行了电子邮件版的小世界问题实验,完成了基尔大学5000名学生的112天电子邮件连接数据。节点为电子邮件地址,连接为消息传输,得到指数截断的幂律分布,指数r = 1.18。同时证明了网络是一个小世界,平均分离度为4.94。

社会网络分析可以解决或试图解决以下问题:

“中心性”是社会网络分析的重点之一,用于分析个人或组织在其社会网络中拥有什么样的权力,或者占据什么样的中心位置。这个想法是社交网络分析师最早讨论的内容之一。

点的中心性表示与该点直接相连的点数,无向图为(n-1),有向图为(入度,出度)。

个体的中心性衡量了个体处于网络中心的程度,反映了该点在网络中的重要性。网络中的每个个体都有一个中心性,它描述了个体的特征。除了计算网络中个体的中心性,还可以计算整个网络的集中趋势(简称为中心化)。网络中心势描述了整个网络中各点的差异程度,一个网络只有一个中心势。

根据计算方法的不同,中心性和中心性势可分为三种:点中心性/点中心性势、中间中心性/中间中心性势和近中心性/近中心性势。

在一个社会网络中,如果一个个体与其他个体之间存在大量的直接联系,那么这个个体在网络中就占据了中心地位,拥有更大的“权力”。在这种思想的指导下,网络中点的中心性可以用网络中与该点相连的点数来度量,即该点的中心性。

网络中心势(Network central potential)是指网络中各点的集中趋势,其计算基于以下步骤:首先找到图中最大点中心性的值,然后计算这个值与其他任意一点中心性的差值,再计算这些“差值”的和,最后将这个和除以所有“差值”之和的最大可能值。

在网络中,如果一个个体位于许多其他两个个体之间的路径中,则可以认为该个体处于重要位置,因为他有能力控制其他两个个体之间的通信。这一特征由中间中心性来描述,中间中心性衡量个体对资源的控制程度。个体越是在网络中占据这样的位置,就意味着它具有很高的中心性,越需要个体通过它进行联系。

中间中心性势定义为网络中中间中心性最高的节点的中间中心性与其他节点的中间中心性之间的差距,用于分析网络的整体结构。中间中心势越高,意味着网络中的节点可能被分成几个小群体,过于依赖某个节点而转移关系,说明该节点在网络中处于极其重要的地位。

邻近性用于描述网络中个体不受他人控制的能力。在计算与中心的接近程度时,我们关注的是捷径,而不是直接关系。如果一个点通过相对较短的路径与许多其他点相连,我们说该点与中心的接近度很高。

对于一个社会网络,靠近中心的势越高,网络中节点的差异越大;反之,则说明网络中节点之间的差异较小。

注:以上公式针对无向图。如果是有向图,可以根据定义相应修改公式。

当网络中的一些个体关系非常密切,以至于形成一个子群体时,这种群体在社会网络分析中被称为内聚子群体。对网络中存在多少这样的子群、子群内成员之间关系的特征、子群之间关系的特征以及一个子群的成员和另一个子群的成员之间关系的特征的分析是浓缩子群分析。

由于凝聚子群成员之间的密切关系,一些学者也将凝聚子群分析称为“小群体分析”或“社区现象”。

常用的社区检测方法主要有以下几种:

(1)基于图的分割方法,如Kernighan-Lin算法和谱二分法;

(2)基于层次聚类的方法,如GN算法和Newman快速算法;

(3)基于模块化优化的方法,如贪婪算法、模拟退火算法、Memetic算法、PSO算法、进化多目标优化算法等。

external-internal index集群密度(E-IIndex)主要用来衡量一个大型网络中的小群体现象是否非常严重,在分析组织管理等问题时非常有效。

最坏的情况下,大群体很松散,但核心小群体凝聚力很高。另一种情况是大群体中有很多凝聚力很高的小群体,很可能会出现小群体之间争斗的现象。凝聚子群的密度范围是[-1,+1]。数值越接近1,派性程度越大。数值越接近-1,派性程度越小。值越接近0,关系越趋于随机分布,不存在派系情况。

E-I指数可以说是企业管理者重要的危机指数。当一个企业的E-I指数过高时,意味着企业中的小群体可能紧密结合,开始图谋自己的利益,从而伤害整个企业的利益。事实上,E-I指数不仅可以应用于企业管理领域,还可以应用于其他领域,比如研究某一学科领域学者之间的关系。如果网络中存在一个内聚的子群,且内聚子群的密度较高,说明这个内聚子群内部的学者在信息共享和科研合作方面联系紧密,交流频繁,而子群之外的成员无法获得足够的信息和科研合作机会。这种情况在一定程度上也不利于本学科的发展。

核心-边缘结构分析的目的是研究社会网络中哪些节点处于核心位置,哪些节点处于边缘位置。核心-边缘结构分析有着广泛的应用,可以用来分析精英网络、论文引用网络、组织关系网络等许多社会现象。

根据关系数据的类型(分类数据和比例数据),核心-边缘结构有不同的形式。分类数据和固定比率数据是统计学中的基本概念。一般来说,分类数据是用类别来表示的,而这些类别通常是用数字来表示的,但是这些值不能用于数学计算。恒比数据用数值表示,可用于数学计算。如果数据是分类数据,则可以构建离散的核心-边缘模型;如果数据是等比数据,则可以构建连续的核心-边缘模型。

根据核心成员与边缘成员关系的存在性和紧密程度,离散核心-边缘模型可分为三种类型:核心-边缘全相关模型、核心-边缘局部相关模型和核心-边缘关系缺失模型。如果将核心与边缘的关系视为缺失值,则构成了核心-边缘关系缺失模型。

以下是适用于分类数据的四种离散核心-边缘模型:

涉及