Peer-to-Peer数据管理-2

本文探讨了Peer-to-Peer(P2P)系统在数据管理领域的应用与挑战,特别是其在文件共享之外的能力。文中详细介绍了P2P数据管理参考体系结构,并讨论了数据定位、查询处理等关键技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2 Peer-to-Peer数据管理研究
 <如有转载或引用请注明:http://youkuaiyun.com/shanjings;作者单劲松>
2.2 P2P和数据管理
Peer-to-Peer (P2P)系统在文件共享、数据管理具有很大的潜能,并且越来越来受到关注。Peer-to-peer系统把共享数据而带来的代价(CPU时间、存储空间、传输文件占用的带宽)分散到网络中的各站点上,因而,在Peer-to-Peer环境中,即使没有功能强大且昂贵的服务器也可以具有大规模的应用。Peer-to-Peer有能力把各种资源聚集起来构建资源丰富的系统,而且具有较小的代价。
Peer-to-Pee系统和分布式数据库系统不同,主要表现在:P2P是动态网络,节点可以自由离开和加入,分布式数据中节点是固定的;P2P中不存在数据全局模型,而分布式数据中有全局视图;P2P中多数是于关键字的精确匹配查询,分布式数据库提供复杂查询;P2P中数据的位置是变动的,分布式数据库中,数据位置一般是固定的。
现在Peer-to-Pee在文件共享得到广泛的应用,如Freenet、Gnutella、Napster、BitTorre等等。但是这些系统仅仅提供文件共享级别的服务,仅仅支持基于关键字的简单查询,几乎不支持基于内容的复杂查询,并且缺乏对数据或者对象的管理能力;再次,不像分布式数据管理,文件共享Peer-to-Peer系统没有提供预定义的数据模式。
尽管P2P系统提供了资源(CUP时间,存储空间及丰富的数据)共享的分布式平台,具有高可扩展性和可用性。但是,在P2P广域网环境中,数据模式、各节点的计算能力、网络结构及带宽都存在很大差异,而且Internet网络中的节点可以自由加入和离开,网络具有波动性;网络中节点间的关系也动态的,精确的定位或推断资源的位置也很困难;在这种环境下数据的放置策略也是一个很大的挑战,因为这要涉及到数据的一致性和可用性问题。这些问题使P2P的应用领域受到了很大限制,目前仅仅在文件共享和一些大规模科学计算(如SETI@home,搜索地外文明 )上得到应用。
从P2P技术上讲,要克服上述困难是一个很大的挑战,因为P2P网络忽落数据语义,或者仅仅提供了很弱的语义,提供了粗粒度的数据服务,使用文件名标示数据对象。这些问题似乎应该放在分布式领域去解决,但是,P2P面临的这些问题恰恰是数据库技术优势,数据放置和数据检索。例如,查询、视图和一致性约束可以表达对象之间的语义关系;物化复杂查询结果可以加快查询;采取一些数据放置策略,可以加快查询速度,优化查询。因此,在数据管理领域,P2P技术和数据库技术的结合,将把P2P技术推向更高的应用层次,而不是仅仅局限于粗粒度的数据管理。
我们在这里所提及的Peer-to-Pee数据管理主要是指可以克服(或部分克服)上述文件共享模式的基于Peer-to-Pee的数据管理系统。现在Peer-to-Pee数据管理还在研究阶段,一些研究者提出了一些系统模型,如Unified Peer-to-Peer Database Framework(UPDF:统一P2P数据库架构)、Piazza、PIER、PeerDB和EDUTELLA等等。
P2P提供了一类数据共享手段,为动态查询、分布式数据共享和语义关系的定义提供了便利。系统中的每一个参与结点除了共享其它节点的数据,与本节点的概念和模式相关联外,也可以定义新的模式,给其它的结点提供查询时的参考体系框架和自己拥有的数据。通过这种手段,P2P系统把网上的各种资源聚集起来整合成资源丰富的系统,且具有较小的代价。我们把这种基于P2P体系结构的数据管理系统称之为P2P数据管理系统(peer data management system : PDMS)。P2P系统在文件共享、分布数据管理等方面具有的奇特潜能,随着互连网的普及以及它处理大规模应用的魅力,使它越来越来受到人们的关注。
Peer-to-Peer在数据管理领域主要有以下几个研究方向:数据的定位(Data Location)、查询处理、数据集成、数据一致性、安全性和Peer-to-Peer数据库系统等等。在这里我们主要介绍Peer-to-Peer数据管理的一般体系结构、数据定位、查询处理和Peer-to-Peer数据库系统模型。
 
2.3 Peer-to-Peer数据管理体系结构
1)        Peer-to-Peer中的数据管理参考体系结构
                                                


 
图表4.9.1  peer-to-peer data management Architecture
文献[4]提出了Peer-to-Peer数据管理参考体系结构,如图4.9.1所示。需要注意的是,根据Peer-to-Peer系统的要实现的功能不同,在参考模型中,有的组件或许不存在,或者几个组件被组合在一起,某些部件或许仅仅在特定的结点上实现。此建议参考体系结构把整个系统按功能分为用户接口、数据管理和Peer-to-Peer网络子层。用户接口负责提交用户查询,数据管理控制查询处理和原数据信息(目录服务),Peer-to-Peer网络子层管理Peer-to-Peer网络的连接。
查询被经用户接口或数据管理API提交给数据管理子层,并且在数据子层进行处理。查询可能涉及在系统局部或全局存储的数据。查询请求由查询管理模块处理,当系统集成了异构数据源时,查询管理模块处理往往需要从语义映射库中检索语义映射信息。语义映射库中包含了一些元数据,利用这些元数据查询管理器可以找到存储查询相关数据的结点,并且把查询语句用这些结点能够理解的词汇重新组织。一些Peer-to-Peer系统或许利用特定某个结点存储这些语义信息,处理查询语句时,查询管理器将和该结点进行通信或者把查询语句传递给该结点,由其执行查询语句。假如系统中的数据源具有相同的模式,语义映射库和查询语句重写都是完全不必要的。
采用一个语义映射库,这样查询管理器就可以发起一个由Peer-to-Peer网络子层实现的、旨在和另一个在查询中将被激活的结点进行通信的服务。查询的实际的执行因不同的Peer-to-Peer实现而不同。在一些系统中,数据将被发送到查询的发起结点,并在此结点进行综合处理。另外一些系统则提供了一个特定的结点,用以进行结点的定位和查询的执行。还有一些系统,把返回的查询结果缓存起来,用以加快相似查询执行速度。缓存管理维护每一个结点的局部缓存,在某种情况下,仅仅在某个特殊的结点进行数据缓存。
当一个远程结点请求某结点的数据时,该结点的查询管理器也负责执行局部查询。在数据管理层和局部数据源之间引入包装器(Wrapper),这样可以隐藏二者之间在数据、查询语言和其它方面的非兼容性。当数据被更新时,更新管理器在存有数据副本的结点之间协调更新的执行。
Peer-to-Peer网络子层主要是为数据管理层提供通信服务。依据网络拓卜结构的不同,Peer-to-Peer网络子层的实现方法在不同的Peer-to-Peer系统中有所不同。在非结构化的网络中,结点可以在网络中的任何一点加入。另一方面,结构化Peer-to-Peer网络对拓卜结构和消息路由严紧控制。因此,加入系统的结点被赋予网络中固定的位置,并且承担一些网络职责,如路由到其它结点。

[1] Wolfgang Hoschek, A Unified Peer-to-Peer Database Framework and its Application for Scalable Service Discovery1211 Geneva 23, Switzerland

[2] Wee Siong Ng Beng Chin OoiPeerDB: A P2P-based System for Distributed Data SharingProceedings of the 19th International Conference on Data Engineering (ICDE’03) 1063-6382/03 17.00 © 2003 IEEE

[3] Ng, Beng Chin Ooi, Kian-Lee Tan: Data Management in Peer-to-Peer Environment: A Perspective of BestPeer. J. Comput. Sci. Technol. 18(4): 452-461 (2003)

[4] L. G. ALEX SUNG A Survey of Data Management in Peer-to-Peer Systems Web Data Management, Winter 2005, Pages 1–50.

[5] Ryan Huebsch JosephQuerying the Internet with PIERProceedings of the 29th VLDB Conference,Berlin, Germany, 2003

[6] WS Ng, BC Ooi and KL Tan, Bestpeer: A self-configurable peer-to-peer system, International Conference on Data Engineering (ICDE'2002), San Jose, April 2002

[7] 王珊、张新宇, Peer-to-Peer数据共享研究, 计算机应用与软件, 2003 Vol.20 No.11

[8] 杨巍, 基于DHT的层次化P2P资源定位方法研究, 东北大学硕士论文, 2004

[9] 陆志国 黄维雄 钱卫宁 周傲英, PeerIS:基于Peer-to-Peer的信息检索系统 l.15, No.9 2004 Journal of Software

[10] 吴国新,网络文件存储和共享系统的资源搜索研究和实现,东南大学,20040301

[11] Ion Stoica, Robert Morris, David Karger, M. Frans Kaashoek, Hari BalakrishnanChord: A Scalable Peer-to-peer Lookup Service for Internet Applications SIGCOMM’01, August 2731,2001, San Diego, California, USA.

[12] CATES, J. Robust and efficient data management for a distributed hash table. Master's thesis, Massachusetts Institute of Technology, May 2003.

[13] Wolfgang Nejdland Wolf SiberskiMichael Sinte Design Issues and Challenges for RDF- and Schema-Based Peer-to-Peer Systems SIGMOD Record, Vol. 32, No. 3, September 2003

[14] Wolfgang Nejdl, Boris Wolf, Changtao QuEDUTELLA:A P2P Networking Infrastructure Based on RDFACM 1581134495/02/0005.

[15] Brunkhorst, H. Dhraief, A. Kemper, W. Nejdl, and C. Wiesner. Distributed queries and query optimization in schema-baed p2p-systems. In International Workshop On Databases, Information Systems and Peer-to-Peer Computing, VLDB 2003, Berlin, Germany, September 2003.

[15] Patrick Valduriez, Esther Pacitti Data Management in Large-scale P2P System

[16] Ryan Huebsch, Brent Chun, Joseph M. Hellerstein, Boon Thau Loo, Petros Maniatis,Timothy [17] Roscoe, Scott Shenker, Ion Stoica and Aydan R. YumerefendiThe Architecture of PIER: an Internet-Scale Query ProcessorProceedings of the 2005 CIDR Conference

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值