信息扩散在社交网络演化中的作用外文翻译资料

 2022-07-26 15:26:50

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


信息扩散在社交网络演化中的作用

Lilian Weng1, Jacob Ratkiewicz2, Nicola Perra3, Bruno Gonccedil;alves4, Carlos Castillo5, Francesco Bonchi6, Rossano Schifanella7, Filippo Menczer1, Alessandro Flammini1 1 2

School of Informatics and Computing, Indiana University Bloomington, USA Google Inc. 3

Laboratory for the Modeling of Biological and Socio-technical Systems, Northeastern University, USA 4

Aix Marseille Universiteacute;, CNRS, CPT, UMR 7332, Marseille, France 5 6

Qatar Computing Research Institute Yahoo! Research Barcelona 7

Department of Computer Science, University of Torino, Italy

摘要

数以百万计的用户每天在社交网络的交互, 为我们研究人们交互背后的机制提供了丰富的数据。三元闭包理论是建立社会联系的主要机制:即如果Alice关注了Bob,Bob关注了Charlie,Alice将关注Charlie。这里我们纵向分析微博数据,从更微观的视野分析用户扩大他们的社交圈所使用的策略。当网络结构影响用户之间的信息的传播的同时,信息传播反过来也会影响网络结构。这表明了当Alice看到很多Charlie发布的内容时,会增大对Chilie进行关注概率的一种链接创建机制。我们通过最大似然估计方法来描述用户的不同链接创建策略。虽然三元闭包理论对链接形成有很大的影响,但通信的捷径是另一个解释网络演化的关键因素。然而,个体关注其他用户的策略是高度异构的。链接创建行为可以由根据结构和行为特征划分不同类别的用户来分析总结。受欢迎的、活跃的和有影响力的用户,更容易创建通信中的捷径,使网络的扩散过程更有效率。

关键词:链接创建、通信、网络演化、信息扩散、捷径、用户行为、社交网络、网络结构

  1. 介绍

用户在社交网络的活动正在爆炸式地发展。社会和微博网络如Facebook、Twitter和谷歌用户每天产生数十亿的信息共享活动。在这些平台上,人们在自己的圈子里向世界各地的朋友和粉丝分享想法,意见,视频和照片。这些交互产生了前所未有的数据量,对于使用定量方法进行社会观察、揭示人类的机制沟通提供了一种独特的方式。[38, 15, 36, 27, 59,60].

社会媒体研究涉及两个主要的主题:信息交流和它的社会网络特征。大多数网络模型关注系统的结构性增长-网络内源动力-或信息扩散过程-网络外源动力。目前的工作在这两种动力学中建立了一个反馈回路

目前大量的研究工作是针对于社交网络的演化。其中对传播机制中链接是如何创建的研究中,基于朋友共享的三元闭包理论是社交网络演化建模一条简单却有力的原则。在有向网络中例如推特或者雅虎,模因传播和三元闭包表明链接方向的特定顺序:如果Alice关注了Bob,Bob关注了Charlie,Alice将关注Charlie。三元闭包理论在无向和有向社交网络中都已被观测到并被纳入网络增长模式之一。[39,34, 54]. 然而,大多数现有的模型没有将用户活动或者网络上的信息传播考虑在内。

社会微博网络,如Twitter,谷歌 ,新浪微博,和雅虎!Meme是为信息共享而设计。如图1中所示,社会网络结构限制通信模式,但网络的信息传播也会影响传播人的行为并最终影响社会链接的创建。

本文的主要贡献是,提供明确的证据证明信息扩散在广泛和个人层面都将影响网络演化系统。特别是,基于信息流,我们发现部分新链接是通信捷径所创建的。(sect;4)。三元闭包已被大量统计证明是一种创造链接机制的方式,而且用户倾向于链接那些曾看过他们发布的内容的用户 (sect;4.1)。此外,并非所有用户使用相同的战略来增长他们的社交圈;高入度用户往往更注意通信(sect;4.2)。然而,通信捷径并不是适用于所有情况;如我们发现用户会关注最热门的内容,捷径不能解释这种纯粹的拓扑机制(sect;4.3)。结果表明,通信捷径可以使社交网络信息的扩散更有效率(sect;4.4)。在sect;5,我们对系统使用最大似然估计,量化分析不同的链接创建策略。最后,用户的分类说明了几种不同的链接形成行为(sect;6)。我们的发现证实了信息扩散动力学是社交网络发展的一个关键因素。

图1:网络内源动力和网络外源动力的强烈耦合。说明了社会底层网络结构,蓝色箭头表示“关注”关系信息流动的方向。红色虚线箭头标志着一个新创建的链接。上层描绘了人们之间的信息流动,导致新链接的创建的过程。

  1. 背景

早期的关于通信动态模型受传染病研究的启发,假设信息通过社会交往从一个人传递到另一个人 [52,25,18,4 2]。现在扩展纳入了级联现象[26],于是影响传播的速度的因素有:信息近因[43],连接的异质性、集群模式[49],[47],[6]用户创建的内容,动态的连接模式[44,11,12,51]。还有另一类模型是基于阈值的概念;传播信息是由于一些朋友的分享[29,45]。这些模型被认为与谣言、规范、行为的扩散相关,并考虑了争夺有限关注的作用[64]。绝大多数的这些研究只考虑静态或底层社会网络,假设在一个更长的时间(慢)的时间尺度而不是信息扩散下的网络发展。最近的研究介于两者之间建模。这些方法考虑到两种动力学独立[53,50]或耦合[61,57]。最后一节的基础模型非常类似于本文探讨的前面的研究。然而,迄今为止,这些模型都主要集中于传染过程是基于每个节点的疾病状态来删除或重新链接[61,57]。本论文从完全不同的底层机制研究社会系统。

用于繁殖的增长和演化网络拓扑的模型历来侧重于定义驱动链接创建的基本机制[62,46,9]。从1959年Erdouml;s和Renyi[22] 提出第一个模型,许多其他人介绍了从观察真正的网络获取到的不同的特征,如小世界现象[63,39,34,54],大聚类系数[63,39,34,54],动态动力学[51,53],信息传播[8],连接模式的异构分布[7,33,37,35,20,23]。特别是,后一些理论是根据优先链接是[37][7]或复制其他模型来进行表述。

在社会背景下,优先链接机制的基本原理是,人们喜欢链接已有链接更多的人[7]。虽然这个理论很受欢迎,但仅靠该理论是不足以复制社交网络的其他重要特征。为了填补这一空缺,提出了一些其他模型,例如同质性[31,42,48,1,24]和三元闭包[39 58,28,34,54]等。同质性是指具有相似特性(例如年龄、 身份)的用户更倾向于彼此之间建立社交关系的一种特性[42,31]。它对大规模的网络链接创建的影响是一个最近讨论的话题[48,1,24]。三者关闭机制是基于两个人有共同的朋友则有更高的概率建立链接[58,28]的直觉。这种趋势在无向和有向在线社交网络都已被观察到,并纳入网络增长模型之一[39,34,54]。特别是Leskovec等人已经在四个不同的大规模社会网络检测了三元闭包,并由此否定了许多其他机制 [39]。利用最大似然估计(MLE)[17]人们已经确定了三元闭包是解释链接创建最好的规则。

链路预测算法,旨在推断在不久的将来可能形成的新连接,对网络结构给出一个当前快照,有助于对网络进化建模。常用方法考虑链接预测分类任务或排名问题,使用节点相似性[40,32],网络的层次结构[16],随机图模型[3],[41],用户配置文件特征[56]。

虽然主旨相似,但我们的方法和已有的大量的研究是不同的。我们不考虑链接预测、每个用户的行为由一组规则建模的代理模拟结构。我们采用标定框架扩展Leskovec et al。[39]。我们通过考虑基于通信量的机制来扩展三元闭包的概念,或更一般来说,考虑用户的活动。我们研究在社交网络的背景下,动力学和网络之间的耦合,连接这两个之前分开研究的主题。

  1. 雅虎西班牙语微博网站数据集

我们对雅虎西班牙语微博网站进行研究,它类似于Twitter的社交微博系统,在2009年和2012年之间活跃。我们可以访问整个系统的历史,包括每条消息传播和链接创建事件完整的记录,从2009年4月到2010年3月。用户关注另一个用户,我在追随者网络通过一个有向边表示“=(i,j),表明j可以接收我发布的消息,我们采用这个符号链接是为了强调信息流的方向。边指用户之间直接的非对称关系;一个节点关注另一个没有关注它的节点。在我们的符号中,一个节点的入度表示粉丝数,出度表示关注数。用户可以转发收到的消息,并对他们的粉丝可见。当用户j转发用户i的内容,我们推断:

图二: 雅虎西班牙语微博网站系统的统计数据.

(A)系统随时间的增长的演变,用户的数量(红点),链接(蓝色方块)和消息(绿色三角形)。(B) 雅虎西班牙语微博网站 粉丝网络中广泛分布的入度和出度。用户不允许超过1000人,这是可以达到的节点的最大入度。

信息从i流动到j,每个链接的权重由j转发i的消息或j看到i的消息所决定。

在观察期结束时, 雅虎西班牙语微博网站追随者网络包括至少由一条边连接的128199用户网络,和3485361有向连接的边。图2显示了该网络的增长和结构基本统计信息。

  1. 链接创建机制

当用户发布或转发消息,所有他们的追随者可以看到这些帖子并可能决定转发,生成的路径构成级联网络。当接收转发消息时,一个用户在这样一个路径可以同时看到祖父母(G,两层转发前的用户)和种子用户(O,原始源)。用户可以决定关注祖父母或起源,直接接收他们的以后的信息。这些新的链接创建了连接网络中的任何用户的快捷方式。三者闭包发生在用户关注一个三元的节点(∆,用户在追随者网络两级以外)。不同类型的链接创建机制的定义见图3(A)。

图3(B)的维恩图显示了不同类型链接的比例和这些链接之间的逻辑关系。我们观察到84.8%的新边包含三元闭包, 21.5%的捷径形成于祖父母,19.5%形成于种子用户。注意,并不是所有的祖父母是三元节点,因为用户可以转发他们在雅虎西班牙语微博网站没有关注的 人的消息。这种链接占0.03%。三者之间有很大的重叠关闭链接和通信捷径。这可以从大多数真实信息瀑布的现象来解释[5],三元关链接和通信捷径一致。

这个证据表明通过通信捷径创建链接是一个三元闭合社会演化机制重要的补充。

图3:(A)是链接机制创建的实例。(B)祖父母,种子用户,三元结点在所有现有创建边的比例

发布与转发行为诱发的通信捷径的创建,反过来影响网络的结构。新创建的链接影响用户可见的消息,使网络更有效地传播信息。

4.1捷径的统计分析

对用户创建通信捷径进行量化分析,我们将每一个链接创建作为一个独立事件。我们检测未关注用户链接到祖父母,起源和三元节点的行为是随机的的零假设

每个链接的创建作出如下说明,1le;le;L,L是链接的总数。对于每个链接,我们可以计算其关注祖父母的可能性:

NG(`)是链接创造者创造链接时所看到的不同祖父母的数量;N(”)时系统中可创建的用户数量;k(lsquo;rsquo;)创造者在同一时刻的入度,分母是潜在候选人的数量。每个链接的指标函数表示是否在真实数据链接至祖父母:

1如果链接至祖父母

1G(`) = 0 否则

根据零假设对祖父母链接数量的预测可根据下式计算:

EG = XpG(`)

`=1

方差由下式给出:

L sigma;G2 = XpG (`)(1 minus; pG (`))

`=1

图4:关注祖父母(红圈)后,起源(蓝色方块)的个人偏好和随着链接创造者的入度而改变的三元节点(绿色三角形)。

而相应的实证数量是:

根据李雅普诺夫中心极限定理、变量zG = (SG minus; EG)/sigma;G i根据标准正态分布N(0,1)建立。为了链接到起源(O)或三元节点(∆),我们定义zO和z∆相似。在所有三种情况中,通过z检验,我们可以显著拒绝零假设(p lt; 10minus;10)。我们得出这样的结论:关注祖父母,起源或三元节点而形成链接比随机的连接更频繁发生。这些链接创建机制在社会网络的演化有重要的作用。

4.2用户偏好

为了研究链接个体一生不同阶段的依赖倾向,我们计算zGk , zOk和入度k的用户创建的链接,也就是那些在关注k用户的同时创建的链接。图4显示三元关闭原则主导关注数较少的用户行为 (k lt; 75)。在早期阶段,个体通信量小,所以很自然的基于当地的社交圈子关注别人,直至达到三元关闭状态。然而,当用

全文共18910字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[144663],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。