面向虚拟社区的社会化专家建模及应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 相关理论基础

2.1 社会网络及其分析方法

社会网络起源于社会心理学和人类学。1940年,英国人类学家Radcliffe Brown在研究社会结构时,首次提到“社会关系网络”(Network of Social Relations)这一名词。但Brown当时并没有对这一社会网络进行明确定义,也没有界定其组成要素,社会网络一词只是一种比喻手段。1954年,人类学家Barnes首次对社会网络进行明确定义,并第一次利用社会网络分析人类社会(挪威的一个渔村)。Barnes认为,社会网络(Social Network)指的是社会行动者(Social Actor),以及他们之间存在的或潜在的各种直接或间接关系(Relationship)的集合。这一定义得到学术界的广泛认可,即社会网络由如下关键要素构成:社会行动者、关联和连接边。

(1)社会行动者是社会网络的参与主体和最基本的要素,其范围较广泛,可以是社会中的个人,也可以是一个国家、组织机构或者一个群体。

(2)关联(Relationship)反映的是社会行动者之间相互影响的程度与关系。

(3)连接边(Tie)是将社会行动者连接在一起的无形的线,代表了他们直接或间接的关联。

社会网络视我们所处的社会为一个网络图G=(VE),由一个个节点和这些节点之间的边构成。其中,节点V代表一个个的人,连接节点的边E代表人们之间的关系。根据节点之间连接边的方向和强度,社会网络图也可分为如下两大类。

(1)有向图和无向图。在有向图中,若节点i发表一条帖子,节点j对其进行回复,则他们之间存在连线,且这条连线由节点j指向节点i,即节点之间的连接边是有方向的,如图2-1(a)所示;在无向图中,节点之间的连接边则没有方向,只是表示节点i与节点j之间存在关系而已,如图2-1(b)所示。

图2-1 有向图和无向图

(2)有权图与无权图。节点之间的边的强度可以用权重来表示。在有权图中,节点之间的回复次数越多,则两节点间边的权重就越大,若两节点之间的回复次数为0,则他们之间的边的权重就为0;在无权图中,权重只表示节点之间是否存在关系。

社会网络理论中用到的分析方法和工具是社会网络分析(Social Network Analysis,SNA),主要对社会网络中行为者之间的关系进行量化研究,以此来了解个体在网络中的地位。社会网络分析法是一种社会学研究方法,也是本书涉及的主要方法之一,它以社会网络中的各种社会关系为研究对象,从个体层面和整体网络层面角度,对社交网络的结构特征及属性特征进行深入探讨。其中,对于社交网络的个体属性的评价分析有个体的度中心性分析,包含出度、入度等;对于整体网络结构特征的分析有中心势分析,中心势反映的是整个网络的集中趋势,一个网络只有一个中心势;而网络整体属性的分析包括网络密度、小世界网络、小团体研究等,涉及的评价指标也非常多。

2.1.1 社会网络的表示方法

1.网络的图描述

网络一般可以通过图来表达,这种方式在实际研究中应用较为广泛。图由一系列节点和边构成,一般可以通过二元组G=<VE>来表示,其中,V是节点的集合;EV×V的一个子集,即边的集合。

V={ABCDEFG};G={{FA},{FB},{FC},{FD},{FE},{FG}}。网络图可以进行分类,如果图中节点对之间的关联是有向的,则称这种网络为有向网络,如图2-2(a)所示;如果图中节点对之间的关联存在权重,则称这种网络为加权网络,如图2-2(b)所示;如果图中节点对之间的关联不具有指向性,则称这种网络为无向网络,如图2-2(c)所示。

图2-2 社会网络示意图

2.网络的矩阵描述

除了使用图的方式来表示社会网络,矩阵描述也是比较常见的方式之一。相比网络的图描述,矩阵可以更好地表示节点较多情况下的网络结构,更有利于计算机编程的规范性和简洁性。

邻接矩阵是应用最广泛的矩阵,它是N×N的对称矩阵。矩阵的行和列都代表相同的节点。节点之间的连接关系通过数字表示。在邻接矩阵中,0表示两个节点之间没有连接关系,非0表示两节点间存在连接关系。邻接矩阵可以很好地表示有向网络、无向网络和加权网络。对于无向网络,邻接矩阵是上三角矩阵或者下三角矩阵;而对于有向网络,有向性则通过邻接关系表中节点关系的先后顺序表示;对于加权网络,矩阵中的值代表权重。图2-3所示为邻接矩阵和邻接关系表。

图2-3 邻接矩阵和邻接关系表

2.1.2 社会网络分析任务和分类

社会网络分析是数据挖掘领域一个重要的分支,通过数据挖掘的相关方法和技术,对社会网络图中的节点、链接、拓扑结构等进行分析,从中获得大量有用信息。根据不同的任务划分,常见的社会网络分析分为节点任务相关、链接任务相关、图任务相关3个子任务,具体如表2-1所示。

表2-1 常见的社会网络分析节点任务及其分类

下面简单介绍几种不同种类的社会网络分析任务。

(1)节点聚类:节点聚类主要运用有块建模法和图谱分割法,把节点划分为不同的类别,根据节点的属性及与其他节点的链接,把具备共同特征的节点聚集到同一类中。

(2)基于链接的节点排序:节点排序是通过利用、分析图模型结构,然后根据度量节点重要性的标准来对图中的节点排序,是社会网络分析中的一个主要研究内容。

(3)基于链接的节点分类:基于链接的节点分类问题,是将网络形式化表示成图结构,将节点集合中成员标识成特定的类别,并且这些节点的类别是相互关联的。

(4)链接预测:链接预测是预测节点之间存在链接的可能性,以节点属性和已经观察到的链接为基础来预测网络中链接是否存在。

(5)子图发现:子图发现是在整体网络图中寻找有意义的或者频繁出现的子图,也是社会网络分析中一个重要的任务。

(6)图分类:图分类通过使用正负标签对整个网络图进行分类,与节点分类思想不同,它属于监督学习研究的问题。图分类需要对网络整体进行数据挖掘,分析社会网络表现出的性质特征,包括判断社会网络是否具有某些特征。目前主要的研究方法包括图上特征挖掘、定义图核函数和归纳逻辑编程(ILP)。

(7)图的产生式模式:社会网络分析根据依赖类型进行图的产生式模型研究,这里的依赖结构类型可以是多节点、多链接类型及不断变化的动态网络。在简单的有向图中,图的产生式模式有很多,如最简单的Bernoulli图分布,还有条件一致(Conditional Uniform)图分布、P*模型及二值依赖(Dyadic Dependence)图分布等。

2.1.3 社会网络分析指标

社会网络以社会关系为研究对象,强调对社会现象的理解与阐述。社会网络有明确的个体网络和整体网络的分类,且更重视个体网络的静态分析。社会网络理论中用到的分析方法和工具是社会网络分析,主要对社会网络中行为者之间的关系进行量化研究,以此来了解个体在网络中的地位。

经过多年的发展,社会网络分析法的理论体系和评价指标日益成熟,已在学术界得到认可并被广泛应用到社会学、管理学等多种学科。其方法包括网络规模和密度分析、中心性分析、凝聚子群分析、核心—边缘结构分析,涉及的评价指标很多,本节只对网络规模和密度分析及中心性分析进行介绍。

1.网络规模和密度分析

对网络特点进行分析时,常用的评价指标有网络规模、网络密度,如表2-2所示。

表2-2 基础评价指标

(1)网络规模:反映的是网络的大小,由网络中的节点数即社会行动者的数目决定。节点数越多,网络规模越大;反之,则越小。

(2)网络密度:反映的是整个网络中节点之间的联系紧密程度和互动程度,计算的是在网络中节点间实际存在的边与全部节点间最多可能拥有的边之比。用公式表示如下:

式中,d是网络密度;t是网络中现有的连接边;n是全部节点数。

网络中某个节点可能与其他任何除自己之外的节点建立连接边,因此,若网络中有n个节点,有向网络中最多可能拥有nn−1)条边,无向网络中则有nn−1)/2条边。如果每个节点与其他每个节点之间都有边,则网络密度为1;如果每个节点都是孤立的,与其他每个节点之间都没有任何边,则网络密度为0。

网络密度越高,说明节点之间互动越多,联系越紧密,网络内信息流通越顺畅;反之,则互动越少,联系越松散,网络内会出现信息流通不畅的情况。

2.中心性分析

中心性分析是社会网络分析的重点内容之一,用于分析个人或组织在其社会网络中拥有怎样的权力,或者说位于怎样的中心地位。从个体和整体网络角度,中心性分析可以分成中心度和中心势分析。

个体的中心度(Centrality)用于测量个体处于网络中心的程度,反映了该点在网络中的重要性程度。网络中每个个体都有一个中心度,刻画的是个体特性。

整体网络的中心势(Centralization)计算的是整个网络的集中趋势,刻画的是整个网络中各点的差异性程度,一个网络只有一个中心势。一般来说,一个网络是集中的,就表明网络中一部分节点(或一个节点)比其他节点有明显高出许多的中心度。而当网络中的节点的中心度都大致相同时,则意味着网络中的每个节点并不比节点更重要,网络是非集中的。

根据计算方法的不同,社会网络的中心度和中心势都可以分为3种:点度中心度/点度中心势、中间中心度/中间中心势和接近中心度/接近中心势。具体如表2-3所示。

表2-3 中心性分析

在无向网络中,一个点的度数就是与该点相连的边的条数。在有向网络中,度又分为入度(In-Degree)和出度(Out-Degree)。入度是其他节点指向该节点的边的数目;出度是该节点指向其他节点的边的数目。

(1)点度中心度(Degree Centrality):最基础也是最直接的指标,测量的是网络中与该点直接相连的点数,间接相连的点数则被忽略。反映节点在网络中所处的位置和与其他节点直接进行交流活动的能力,节点度数越高,越接近网络的核心地位,与其他节点的直接交流能力越强。

网络中心势指的是网络中点的集中趋势,其计算依据如下步骤:首先找到图中的最大点度中心度的数值;然后计算该值与任何其他点的中心度的差值;再计算这些“差值”的总和;最后用这个总和除以各“差值”总和的最大可能值。

(2)中介(或中间)中心度(Betweeness Centrality)。根据位置来计算某节点的中心性。衡量一个节点占据在其他两个节点最短路径的程度,即该节点的中介能力和对信息等资源控制的程度。因为如果两个节点以某节点为中介进行联系,而该节点拒绝做媒介,则这两个节点就无法沟通,并且“处于这种位置的个体可以通过控制或者曲解信息的传递而影响群体”。节点的中间中心度越高,说明在网络中越被其他节点所依赖,中介能力越强,对信息的控制力也越高。

中间中心势定义为网络中中间中心性最高的节点的中间中心性与其他节点的中间中心性的差距,用于分析网络整体结构。中间中心势越高,表示该网络中的节点可能分为多个小团体,而且过于依赖某一个节点传递关系,说明该节点在网络中处于极其重要的地位。

(3)接近中心度(Closeness Centrality)。根据节点间距离来计算某节点的中心性,测量一个点到网络中其他节点的最短路径长度的总和,即一个节点不依赖网络中其他节点的程度,这一点和中间中心度相反。如果网络中的某个节点与网络中其他节点的距离都比较短,则称该节点具有较高的接近中心度。因为该节点比其他节点能更快地到达网络中的所有节点,在信息传播时更少地依赖于其他节点。而非核心节点用户必须通过其他节点才能传播信息,容易受制于其他节点。因此,节点的接近中心度越高,越不依赖于其他节点,在网络中的位置就越核心。对一个社会网络来说,接近中心势越高,表明网络中节点的差异性越大;反之,则表明网络中节点的差异性越小。