1 复杂网络分析(二)—社会网络(1)
目录
1.1 从社会网络开始
1.1.1 从你、我、他开始
你、我、他
是谁——标记、编码
怎样描述——属性、属性值
有关系吗?——什么关系,谁和谁,何时存在关系
1.1.2 认识社会网络
“社会网络”指的是作为节点的社会行动者(social actor)及其间的关系的集合。也可以说,一个社会网络是由多个点(社会行动者)和各点之间的连边(行动者之间的关系)组成的集合。用点和线来表达网络,这是社会网络的形式化界定。
1.1.3 社会网络的基本构成
网络中的“点”可以是任何一个社会单位或者社会实体,例如:个体、公司、学校、城市、国家
网络中的“连边”可以反映朋友关系、合作关系、距离关系、贸易关系等多种关系
1.1.4 网络数据与传统数据的差异
传统的数据结构借由不同属性(横列)比较行动者之间的相似或差异
网络数据描述行动者之间的关系
1.1.5 怎样理解社会网络
在社会科学中,以对社会行动者之间的互动研究为基础的结构性方法被称作社会网络分析(弗里曼,2008)
这些行动者可能是个体的人,也可能是机器、群体、组织或者国家等
社会网络分析关注行动者之间的关系,认为这些关系的模式会影响它们的行动
因此,揭示不同类别的关系模式,并确定这些模式在何种条件下会出现以及会导致什么样的后果就成为社会网络分析的核心目标之一
哪些节点的行为是相似? 哪个节点最重要,为什么重要?
1.1.6 社会网络分析的发展
当代科学界重视结构性与系统性这一大背景的产物
社会网络分析把社会学家、人类学家、数学家、经济学家、政治学家、心理学家、传播学家、统计学家、生态学家、流行病学家、计算机科学家、商学院里的组织行为学和市场学学者,以及物理学家集合在一起。
虽然这些人背景各异,但共同拥有一个体现在网络分析方法中的结构性视角。
多个学科几代研究者不断积累的结果
关于社会网络分析的起源,有的研究者认为始于20世纪30年代早期莫雷诺(Jacob Moreno)的社会计量学。也有人认为,社会网络分析到20世纪70年代怀特(Harrison White)在哈佛大学招收研究生时才开始。事实上,社会网络分析的相关理论从19世纪末20世纪初的齐美尔(Georg Simmel)就已发端,甚至能够追溯至更早的孔德(Auguste Comte)。
20世纪30年代,莫雷诺的社会关系计量学和沃纳(William Warner)与梅奥(George Mayo)的人际关系学派
1934年,莫雷诺出版了《谁将生存?》一书,标志着社会计量学的兴起。
莫雷诺及其助手统计了研究对象期望和哪位组织成员共同生活和娱乐,并据此得出一套关系型数据,用以分析各成员在群体中的位置和群体中的小集团。
大约在同时期,哈佛大学的沃纳和梅奥在研究组织行为的过程中,提出了人际关系学派(The Relational School)。
他们收集了工人之间详细的社会网络数据,比如谁和谁一起玩、谁和谁吵了架等,并用图形的方式展示了工人之间的种种关系。
20世纪50年代,哥伦比亚学派的传播研究
拉扎斯菲尔德(Paul Lazarsfeld)、科尔曼(James Coleman)、卡兹(Elihu Katz)和门泽尔(Herbert Menzel)等人采用社会网络的方法来研究社会传播(Social Diffusion),给社会网络研究注入了新的活力。1955年,哥伦比亚学派的代表性作品之一《人际影响》问世,研究者们从生命周期、合群性和社会经济地位三个方面探讨了意见领袖的特征。
1967年哈佛大学心理学教授斯坦利·米尔格拉姆(Stanley Milgram)通过连锁信实验验证了六度分离理论(Six Degrees of Separation)
六度分离理论(又称小世界现象)的出现使得人们对于人际关系网络的威力有了新的认识。然而,在这个理论中,没有对人和人之间的关系进行强弱的区分。直到1974年,斯坦福大学社会系的马克·格拉诺维特(Mark Granovetter)提出了弱连接理论,才对这一问题进行了补充。
格兰诺维特指出:每个人与接触最频繁的亲人、同学、朋友、同事等之间是一种“强连接”(Strong Ties),然而这种稳定的连接在传播范围上非常有限。反而,与一个人的工作和事业关系最密切的社会关系并不是“强连接”,而常常是“弱连接”(Weak Ties),例如一个无意间认识的人或者打开收音机偶然听到的一个人等。“弱连接”虽然不如“强连接”那样稳定,但却有着极快的、低成本和高效能的传播效率。
20世纪70年代,怀特(Harrison White)在哈佛大学的研究
怀特将矩阵理论应用与社会网络研究,写出了一些关于网络分组(block modeling)和机会链(chains of opportunny)方面的重要论文。
在这个过程中,培养了一大批对当代社会网络分析具有重要影响的学生,比如皮尔曼(Peter Bearman)、波纳西(Peter Bonacich)、威尔曼(Barry Wellman)和温士浦(Christopher Winship)等人。
70年代末,在威尔曼等人的倡导下,社会网络研究国际协会(International Network for Social Network Analysis)成立,加上《社会网络》杂志的创办,标志着社会网络研究开始了系统化和国际化的进程。
20世纪90年代以来,社会网络研究实现了分析方法的突破和多学科的深入参与
指数随机网络模型(Exponential Random Graph Models,ERGM)的建立和发展极大推动了社会网络的统计建模。
Snijders等创建的个体导向随机模型(Stochastic Actor-oriented Models)进一步把随机网络模型推广到分析动态社会网络。
研究主题从单纯的对社会网络的研究,扩展到对政治网络、经济网络、文学作品中的对话网、蛋白质互动网、疾病传染网、计算机网络等的研究。
参与的学科从社会学、人类学和统计学扩张到经济学、政治学、传播学、文学、物理学、生物学和医学等学科。
在这个过程中,除了以社会学为核心的研究继续得到巩固,还形成了以物理学和计算机科学为核心的不同流派。
1998年,康奈尔大学的邓肯·瓦特(Duncan Watts)和斯蒂文·斯特罗加茨(Steven Strogatz)在《Nature》杂志上发表了一篇名为“小世界网络的集体动力学”(Collective dynamics of the 'Small World' networks)的论文。指出之所以会出现小世界现象,是由于某一类复杂网络的特性。他们注意到复杂网络可以按两个独立的结构特性分类,即集聚系数和节点间的平均路径长度。1999年,Barabási和Albert在《Science》杂志上发表的《随机网络中标度的涌现》一文中证明复杂网络的连接度普遍符合幂律分布。随后,很多研究者,尤其是物理学家开始关注各种复杂网络。
于此同时,以康奈尔大学的Jon M. Kleinberg教授为代表的计算机科学研究者则主要针对社交网络数据的特点,运用与修改各种数据挖掘算法。提出了针对社交网络数据的基本算法,如著名的HITS和PAGERANK算法。
1.1.7 社会网络分析的不同视角
社会网络分析按照研究群体的不同可分为两种基本的类型:自我中心网络( Ego-centered Networks)分析和整体网络 (Whole Networks)分析。
自我中心网络是从个体的角度来界定社会网络,以特定行动者为研究中心,主要考虑与该行动者相关的联系,以此来研究个体行为如何受到其人际网络关系的影响。
而整体网络关注的焦点则是网络整体中角色关系的综合结构或群体中不同角色的关系结构。
这两种类型的分析因其侧重点不同,主要使用的测量指标也不尽相同,但并非毫无联系。
1.1.8 社会网络的测量与局限
社会网络中的测量指标主要包括三种类型:对连接的测量、对个体的测量和对网络整体的测量
这些指标都是静态量,可以通过计算它们在不同时间的值,反映网络的变化趋势
社会网络分析直接反映的是社会现实,对于形成这些现实事件和过程的机制和原理缺乏解释
1.1.9 社会网络中连接的测量
1.1.10 社会网络中个体的测量
1.1.11 社会网络中整体的测量
1.2 社会网络的表示
1.2.1 社会网络的基本概念
网络Net
网络是指由个人或组织所构成的社会结构。它由一些具体的关系类型,如:友情,亲属,伴侣,信息交换关系…所联系起来。
节点node/point/vertexes (joint)
节点或结点是网络中的基本单位的概括。它可以是代表:个人、社会团体或者集体行动者。
连边connection/link/edge/line (tie)
连边或边指联系行动者之间的关系,我们在考察网络时,不仅要知道网络之间的点是有联系的,而且要知道这些点之间是如何联系的。这就是连边的类型,如感情、金钱、信息等。任何可以将行动者结合在一起的力量和资源流动都可以做为连边。
在社会学意义上解释复杂的纽带时,通常将它分为三种:物质的、符号的、情感的。
1.2.2 社会网络的形式化表达
1.2.3 社会网络的图形表达
1.2.4 社会网络的矩阵表达
1.2.5 四种类型的图
1.2.6 无权无向图
1.2.7 加权无向图
1.2.8 无权有向图
1.2.9 加权有向图
1.2.10 图的数学表达
一个图由节点和连边组成,记为G(V, L)。其中V={V1,V2,V3,…, VN}是节点的集合,L={l1, l2,l3,…,lK}是连边的集合。Li必须与V中的节点相关联,即Li的两个端点都在集合V中。
N是网络中节点的总数,K是网络中连边的总数。
当一个网络中任何两个节点之间都有连边时,这个网络是一个完全图(complete graph),K=N(N-1)/2。
网络中一个特定的节点表示为Vi,一条连接Vi和Vj的连边表示为lij。当Vi和Vj之间有一条边时,它们被称为邻居或相邻点。
由两两相邻的节点及其相关联的连边所构成的点-边序列被称为链。若链中的节点均不相同,则称为初等链。
当一个图的任意两点之间至少有一条初等链时,这个图时一个连通图(connected graph)。
连通图的另一个解释:
在一个无向图G 中,若从节点i到节点j有路径相连(当然从j到i也一定有路径),则称i和j是连通的。如果 G 是有向图,那么连接i和j的路径中所有的边都必须同向。如果图中任意两点都是连通的,那么图被称作连通图。如果此图是有向图,则称为强连通图(注意:需要双向都有路径)。
1.2.11 图的计算机表达
邻接矩阵
关联矩阵
距离矩阵
数值越大,距离越大吗?
1.2.12二分网络
二分网络有两种不同类型的节点,且只有不同类型节点之间有连边。二分网络可以简单表示为G(X, Y, E),X, Y分别表示两类节点,E表示两类节点之间的连边。
二分网络也可以用邻接矩阵表示。在邻接矩阵中,若节点间存在连边则为1,否则为0。设X型、Y型节点数分别为m和n,由于同类型节点之间没有连边,因此二分网络的邻接矩阵可以表示为:
思考:二分网络可以描绘怎样的社会现象?
好莱坞电影演员网络就是二分网络的一个重要例子:其中一个节点集合对应着电影(记为U),另一个节点集合对应着演员(记为V)。如果某个演员出演了某部电影,则二者之间有一个链接。该二分网络的一个映射网络是演员网络——出演过同一部电影的两个演员之间彼此相连。另一个映射网络是电影网络——至少有一个演员相同的两部电影彼此相连。
人员-任务
1.2.12 何谓方向性
有些连边是单向的,代表着资源或者信息流动的方向,这种关系具有不对称性。例:老师与同学之间是传输知识与接受知识的关系。有些连边是双向的,即是互惠性的。例:生意场上的合作伙伴。
思考:计算机网络中的两个节点之间的连边是有向的还是无向的?
1.2.13 何谓权重
连边具有强度之分,这是指网络中位置间流动的资源的层次。一种定性的划分方法是:直接关系的强度大于间接关系,重要的关系大于次要的关系(如贩毒合作网)。一种定量的划分方法是:两个节点之间的联系频度或流量。
思考:计算机网络中的两个节点之间的连边是无权的还是加权的?
1.2.14 多层网络的表达
媒体层面的引用网络
国家层面的引用网络
洲际层面的引用网络
【思考】媒体引用网络的节点(尺寸)大小代表什么?