Project Soul: Toward Social Big Data Analytics for Information Discovery and Recommendation

介绍微软亚洲研究院Soul项目,利用社交网络大数据实现个人信息发现及推荐。项目涉及数据仓库设计、数据收集与挖掘等方面,旨在为招聘、教育等活动提供决策支持。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

微软亚洲研究院学术讲座    时间:2013/5/7    地点:中山大学软件学院A101

MSRA的林钦佑(Chin-Yew Lin)研究员向我们介绍了他们在社交网络大数据领域的研究项目,项目名称叫做Soul,致力于通过社交网络的大数据挖掘来实现与具体个人有关的信息发现和推荐。

社交网络的大数据挖掘分成两大方面,一是普适数据仓库的设计,二是收集数据和进行数据挖掘。

 

(一)普适数据仓库的设计

在设计数据仓库之前,首先要考虑规模上的可行性。一个社交网络平台(如Facebook)上的数据已经够多了,怎么存储和处理全部社交平台的数据?对于这个问题,他们引用了20/80法则,即只需要存储和处理最活跃的20%的用户的信息,就足以掌握80%左右的情况了。现在我们考虑两大设计需求:(1)数据的结构化(统一化);(2)建立数据和所有者之间的关联。第1个问题是社交网络平台多元化的结果,我们需要设计一个统一的数据模式来存储不同社交平台上的信息。第2个问题则根源于互联网的匿名性,我们必须想办法重建数据项的所有者标识。

那么,Soul项目是怎样做的?他们设计了三大数据仓库:(1)建立一个People Repository,存储与个人有关的结构化数据,如标识名、所在位置、年龄、性别、照片等;(2)建立一个Entity Repository,存储实体信息,包括Entity Similarity、Hypernym Hierarchy、Triple Store、Phase Similarity Graph;(3)产生一个Context Repository建立前两个repository之间的联系,存储结构化的发现结果,包括Who, Where, When, What, Why, How。

其中,我觉得EntityRepository的设计是最动脑筋的,因为这个数据模式必须能够概括一切能够被描述的东西。林研究员并没有详细介绍这个仓库是怎样设计的,具体可以看这篇Paper(http://www.aclweb.org/anthology-new/D/D12/D12-1094.pdf)。从幻灯片的简要描述中,可以发现他们把一切“东西”都抽象为entity,他们会计算entities之间的相似度(Entity Similarity),以及entities的概念上的层次关系(Hypernym Hierarchy),还有两个entities通过一个谓词建立的联系(Triple Store),以及每两个谓词之间的相关性(??)(Phase Similarity)。非常抽象,但是越抽象越是强大,呵呵。

 

(二)收集数据和进行数据挖掘

有了前面的数据仓库就可以做很多新奇的事儿了。因为对一个具体的人,我们竟然可以挖掘出一连串与他有关的信息,比如能力、经历、见识、兴趣、不良嗜好、健康状况等等,我们可以为招聘、教育、保险、广告投放等活动提供决策支持。

三大步骤收集所需的源数据:Crawling,DataExtraction,Index。先爬到指定的数据,然后进行提取,最后进行索引。然后可以设计并执行挖掘算法,获得我们想要的结果。

跟普适数据模式的设计所不同的是,这一部分的活动是由具体的数据需求来驱动的。假如我们希望找到每个人擅长的领域,我们可以选择一个流行的专业问答网站(如StackOverflow),然后能够按照它的数据模式进行数据收集,但更重要的是设计算法对每个用户的专业程度进行打分。对这个问题,林研究员他们设计了一个名为PKScore的模型(SIGIR 2011),可以通过对用户在知识问答网站的表现进行专业程度打分。

林研究员的团队在这方面的研究成果还包括论坛爬虫(WWW12),Web数据记录提取(CIKM2011),作者提取(CIKM2012),不同社交网站间的用户标识的连接(WSDM2013)等。当然,Soul项目并没有完美地解决前面提供的两大设计需求,还有实际的困难等待研究人员去解决,比如同一人用不同的网络标识,不同的人用同样的网络标识,以及信息造假等。

 

 

思考

我们正处在一个剧变的时代,开放、分享、透明的观念逐渐深入人心。我想这种变化不仅将大大推动生产力的发展,而且能够增加社会成员之间的互相信任,会让我们的社会变得更美好。

但是在朝着这个美好梦想努力的同时,我们必须赶紧明晰隐私的界线,否则数据挖掘行为将对公民的权益造成莫大损害。

更激进地,曾经听徐亚波老师、陈怀临首席说过数据属于个人的主张。他们认为应用应该和数据相分离,用户永远掌握自己的数据,在需要的时候提供一部分给相关的应用以获得一定的服务,并产生新的数据。这样做的现实困难在于,因为互联网应用的快速创新,我们不大可能为它们建立一个标准的数据模式,这将导致数据在应用间的转换需要相当大的工作量。而林研究员他们在普适数据模式方面的研究成果或许可以起到关键的作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值