声誉 ‐ 从社会认知到网络安全
摘要
声誉是我们社会生活中许多方面以及决策过程中所使用的一个概念。在与陌生人或公司互动时,或在购买商品、预订酒店房间时,我们都使用声誉。然而,声誉在网络社会中也发挥着重要作用,使我们能够建立信任,而信任对于虚拟世界中的互动至关重要。声誉具有多个重要方面,例如聚合、身份和传递性,这些特性使其适用于完全不同的领域。在本次演讲中,我们将展示这些方面在多个不同领域中的应用,并通过我们之前和当前关于声誉的研究加以说明。
A good name is more desirable than great riches;
to be esteemed is better than silver or gold.
箴言22:1
1 引言
声誉是社会生活中的一个关键概念。我们日常的许多决策,例如购买哪本书或咨询哪位医师,都基于信任。这种信任要么源于我们自身的直接经验,要么在缺乏直接经验时,依赖于我们重视其意见的他人所拥有的直接经验。然而,当既无直接也无间接经验可参考时,我们往往依赖于大量人群或社区的聚合意见,这种聚合意见即表现为声誉。声誉在虚拟社区和社交网络中也发挥着重要作用。
近年来,在社交网络中诋毁他人声誉的行为已对许多人造成严重伤害(已有数起因声誉受损而导致的自杀事件被报道)。因此,维护良好的在线声誉已成为个人和企业面临的关键问题。易于访问的虚拟社区的存在,使得与完全陌生的人进行交流成为可能且合理。然而,此类互动必须建立在信任的基础之上,而信任通常基于个人经验。当这种经验不易获得时,人们通常会依赖声誉。因此,计算用以反映社区观点的声誉成为一个重要的挑战。
声誉已成为易贝等众多商业系统的关键组成部分[3]。此外,还开发了相当多的信任与声誉模型。
不同的模型采用不同的概念框架,包括评分的简单平均、贝叶斯系统、信念模型[11]这些模型能够表示评分中的不确定性,以及以传递性信任为核心概念的流模型,例如 Eigen-trust[13]和 PageRank[16]以及基于群体的模型,例如 Knot 模型[7]。在本次演示中,我们将讨论声誉的三个重要方面,并展示它们如何在不同域名中被应用。虽然我们讨论的前两个域名涉及现实生活中的用户的声誉,第三个域名则涉及抽象实体——互联网域名,然而在此域名中计算和使用声誉的方式与在社交领域中的使用方式类似。
我们处理的第一个方面是将声誉作为身份的一部分加以使用。在社交领域中,声誉是个人身份的重要组成部分,而一个人的身份决定了其被允许的行为。
随着专家程序员的声誉提升,她可能获得更多访问由某公司管理的开源代码的访问权限。这些权限可能包括在不同层级上审查或修改代码。因此,我们的第一个领域是授权领域,以及将声誉用于细粒度访问控制。在第2节中,我们介绍了一些模型,这些模型将声誉作为用户身份的一部分,并在做出访问控制决策时予以考虑。
我们研究的第二个方面是聚合。大多数声誉计算模型都采用某种形式的评分聚合来计算声誉[12]。然而,此类聚合通常在单一社区内进行。在现实生活中,用户可能活跃于多个社区,并且为了保护隐私,用户在不同社区中可能使用不同身份。一个主要缺点是,用户在一个社区中建立良好信誉的努力无法在其他社区中得到利用。另一个缺点是某个社区无法获知其成员在其他社区中被识别出的不诚实行为。因此,有必要从多个社区聚合声誉。我们开发了跨社区声誉(CCR)模型,以实现虚拟社区之间的声誉知识共享[5,6,9]。CCR模型旨在利用来自多个社区的声誉数据,以获得更准确的声誉。它通过从相关社区导入声誉数据,使新的虚拟社区能够快速成熟。CCR模型中聚合的应用将在第3节中讨论。
我们讨论的第三个方面是传递性,这是信任的一个重要属性,对声誉计算具有影响。它使我们不仅能够从自身经验或朋友的经验中计算声誉,还能从 “朋友的朋友”的经验等中进行计算。已有一些在应用传递性属性的同时用于计算声誉的流模型被发表,包括 Eigen-trust [13] 和Page-rank [16]。我们在此的独特贡献是将这些思想应用于互联网域名声誉的计算。当今的互联网世界充满了威胁和恶意软件。黑客经常利用各种域名来传播和控制其恶意软件。
由于没有时间实时收集和分析流量数据,因此难以检测这些行为异常的域名,提前识别它们显得尤为重要。我们使用术语域声誉来表达我们对一个域名是良性还是恶意的信念的度量。我们研究了利用传递性属性和流算法计算域声誉的方法[15]将在第3节中讨论。
2 身份‐声誉与访问控制
传统的访问控制模型(如基于角色的访问控制)适用于对已知用户访问资源进行管理。然而,这些模型在开放、去中心化且多中心的系统中常常显得不足,因为在这些系统中用户群体是动态的,且并非所有用户的身份都能预先知晓。
对于此类系统,除了用户身份认证之外,还必须引入某种与用户相关的信任度量。这种信任度量可以用用户声誉作为其身份的一个属性来表示。
Chakraborty 和 Ray [2] 提出了 TrustBAC,一种基于信任的访问控制模型。该模型在传统基于角色的访问控制模型基础上引入了信任级别概念。用户根据用户凭证、用户行为历史、用户推荐等多种因素被分配到不同的信任级别,而非直接分配角色。信任级别被赋予角色,角色再被赋予权限,类似于基于角色的访问控制机制。在 TrustBAC 中,当用户的声誉因过往行为下降时,其原有角色的分配可能不再有效,系统将为其分配一个权限较少的新角色。[2] 中给出 了数字图书馆领域中的一个此类场景示例。但在某些情况下,角色切换可能并不理想。例如,在医疗领域中,一位声誉较低的医师可能不会失去“医生”这一角色,但可能会失去部分权限。这种基于用户声誉对同一角色进行动态权限分配的方式更加灵活,可避免产生过多角色。在 [14] 中,我们对该动态模型进行了形式化定义,并展示了其在软件开发领域中的详细运行示例。本文的主要观点是:当将声誉视为用户身份的一部分时,可以在无需显著增加系统中角色数量的前提下,支持更加灵活的基于角色的模型。
3 聚合和跨社区声誉
在本节中,我们简要描述如何使用CCR模型[5,9]从多个社区聚合声誉。CCR模型定义了将某个社区成员在其所在社区的声誉与其他社区中该成员的声誉进行聚合所需的主要阶段。第一阶段确定一个社区对另一个社区的信任度,作为从前者接收声誉信息的前提条件。第二阶段涉及将声誉值从一个社区的领域值转换为另一个社区的领域值。第三阶段在参与社区用于描述声誉的属性集合之间执行匹配过程。例如,假设有两个体育社区中有一名评论员活跃,其中一个社区是篮球,
足球的其他情况。假设评论员鲍勃希望将其在足球社区的声誉导入(并聚合)到篮球社区。第一阶段考虑篮球社区成员对在足球社区中计算出的声誉的总体信任度。第二阶段考虑两个社区中声誉值的统计分布,并应用所需的转换(例如,一个社区中的“非常好”评级在另一个社区中可能仅被视为“良好”)。第三阶段映射两个社区用于计算声誉的具体属性(例如,足球社区中的“预测准确率”属性可能部分映射到篮球社区中的“总体可靠性”属性)。详细的数学模型解释了跨社区声誉(CCR)的映射和聚合过程,该模型在[5]中进行了描述。CCR模型已实现为TRIC软件。TRIC主要关注跨社区聚合不同的声誉机制,并在聚合过程中保护用户的隐私权和数据控制权。CCR计算过程[5]从请求社区开始,当其希望获取有关某位用户的CCR数据时,向相关的响应社区发送请求。
拥有该用户声誉数据且愿意共享信息的社区将回复相应的声誉数据。接收到的数据被聚合并组装成一个包含该用户在请求社区背景下CCR数据的对象。此过程如图1所示。
在社区之间共享声誉的一个重要目标是应对隐私问题。在CCR模型中,我们识别出三个主要的隐私问题,而这些问题在单个社区中不存在或不那么显著社区域。首先,不可链接性是CCR模型提出的主要关注点。尽管我们的目标是从多个社区计算用户的CCR,但我们提供了在不损害用户在每个社区中的匿名性、同时维护社区间不可链接性要求的前提下实现该目标的方法。控制声誉信息的传播是另一个隐私要求。我们提出了一种基于策略的方法,使用户和社区都能够控制声誉数据的传播。我们解决的第三个隐私问题是隐私与信任之间的权衡。我们建议采用透明度度量来评估CCR对象。为了获得较高的透明度等级,鼓励成员在明确披露其声誉相关信息比潜在的隐私损害更有利且更具价值时,主动披露这些信息。CCR模型中的隐私问题在[8]中进行了讨论。
4 传递性与计算域名声誉
如前所述,计算域名声誉并识别可疑域是当前网络安全领域一个非常重要的问题。我们解决该问题的方法[15]利用从DNS日志记录中的映射信息构建出的域名与IP地址图。域名系统(DNS)将域名映射到IP地址,为互联网应用提供了一项基本服务。许多僵尸网络利用DNS服务来定位其下一个命令与控制(C&C)站点。因此,已有多个研究人员使用DNS日志来检测可疑域,并在必要时过滤其流量。我们借鉴了著名格言“告诉我你的朋友是谁,我就能说出你是谁”,这一理念启发了许多社会信任模型,并将其引入互联网域名领域。因此,与恶意域名相关的域名更有可能也是恶意的。这种传递性属性促使我们采用流算法。
尽管此前已有多个研究人员使用DNS数据来计算域声誉(见[1]),但在[15]中,我们提出了一种新方法,即在DNS图上应用流算法,以获得域名的声誉并识别潜在的恶意域名。为域名计算声誉带来了若干新的难题:
– 如果存在评分信息,通常也是稀疏且二元的,一个域名要么被标记为“白”,要么被标记为“黑”。
– 像黑名单和白名单这样的静态来源往往不是最新的。
– 域名之间没有明确的信任概念,这使得难以应用流量或传递性信任算法。
– 域名的声誉是动态的,并且变化非常迅速。
这些困难使得为计算域声誉选择一个合适的计算模型成为一项具有挑战性的任务。我们的方法基于一种流算法,该算法通常用于在社交网络和虚拟社区中计算信任。我们主要受到两个模型的启发:Eigentrust模型 [4],它通过信任链的传递迭代来计算信任和声誉。信任用户以及Guha等人提出的模型[10],后者结合了信任与不信任的流动。
采用流算法的动机在于这样一个假设:与生成恶意软件的IP地址和域名相邻的IP地址和域名,更有可能转变为生成恶意软件的节点。我们构建了一个反映域名、IP地址及其映射和关系拓扑结构的图,并使用流模型将来自黑名单形式的知识进行传播,从而在图中标记出恶意或可疑的域名。尽管我们并不声称图中每个与恶意域名相连的域名(或IP)都是恶意的,但我们的研究假设是,此类域名(IP)更有可能变为恶意。我们初步的实验结果支持了这一假设。
流算法的主要输入是域名/IP图。该图由以下来源构建:(1)A记录:一个包含IP地址与域名之间成功映射的数据库,这些数据来自一家大型互联网服务提供商在数月内的收集。这些映射基本构成了域名与IP地址之间的边。(2)Whois:一种广泛使用的查询与响应协议,用于查询存储互联网资源注册用户或分配者的数据库。该数据库将具有相似特征的IP地址进行分组,因此成为IP到IP边的基础。此外,还存在与域名之间的相似性相关的域名到域名的边。(3)馈送框架:一份在与收集A记录相同时间段内获取的恶意域名列表。该列表被用作初始“恶意”域名集合。(4)Alexa:Alexa数据库根据页面浏览量和独立网站用户的综合指标对网站进行排名。初始“良性”域名集合由此列表得出。(5)VirusTotal:一个提供免费检测域名是否存在病毒及其他恶意软件的网站。我们将在下文描述如何使用它来测试我们的结果。构建域名/IP图最困难的部分是为边分配权重,因为权重与边上的流量成正比。我们测试了多种考虑图拓扑结构和其他因素的权重分配方法,详见[15]。一旦域名系统图构建完成,并提取出“良性”和“恶意”域名集合后,即可执行该算法。整个过程如图2所示。
流算法模型描述了每个IP和域名将其声誉分配给与其相连的IP或域名的思想。这一过程是迭代进行的,每次迭代中的声誉都会以一定的衰减因子累加到某个域名或IP的总声誉中。衰减因子用于减少通过传递性间接连接的节点所能获得的声誉量。该流算法分别用于传播良好信誉和不良信誉,然后以多种方式合并这两个声誉值,从而产生该算法的若干变体(详见[15])。
这些算法的重要贡献在于它们能够准确预测未来的恶意域名。尽管并非所有恶意域名都被识别出来,但仍发现了大量恶意域名。在其中一个实验中,我们使用了为期3个月的DNS日志,从中构建了一个大规模的域名‐IP图,使用近一百万个节点构建,并对其应用了流算法。结果表明,在前1000个高度可疑域名中,有30%被发现是已知恶意的(通过VirusTotal),而在随机选取的1000个域名中,仅有0.9%被确认为已知恶意。
5 结论
声誉是我们在社会生活中做出决策的一个关键概念。本文讨论了声誉的三个关键方面:身份、聚合和传递性,这些方面在将声誉概念从一个领域迁移到另一个领域时至关重要。我们通过简要回顾自己的一些研究论文展示了这一点。主要结论是,声誉在社交领域之外的许多领域中也发挥着重要作用。
1638

被折叠的 条评论
为什么被折叠?



