自动化的人肉搜索引擎即将出现?

本文探讨了人肉搜索的概念及其演变,特别是在互联网环境中利用数据挖掘技术进行个人身份识别的可能性。文章通过Last.fm的例子说明了如何通过分析用户名、好友列表和个人偏好等公开信息来推断用户的真实身份。

人肉搜素是MOP(今天的猫扑网)开创的一个概念,最早是用来指发帖子请人帮忙寻找一些互联网上的稀缺资源,并支付一定的虚拟货币。自从虐猫女事件之后,慢慢演变成发动众多网友的力量找出互联网上的某个人在现实中的身份。Google在有一年的愚人节在招聘了人肉搜素管理员和志愿者。
所谓人肉搜索,说白了还是利用人的智慧和经验来搜寻并综合各种信息。既然人工智能的目标是模仿人的各种思维能力,那么模拟人肉搜索也应该是人工智能的目标之一。

前一阵,科技博客Techcrunch宣称,音乐社交网站Last.fm向美国唱片业协会(RIAA)透露数据,使得RIAA能追踪那些抢先试听U2泄漏专辑的网友。很快Last.fm出来辟谣说没有这回事,他们对用户的隐私数据保存得很好,并且不允许那些利用用户数据识别个人身份的行为。
问题在于,如果RIAA真的想要揪出那些听U2的人是谁——即使他在公开的用户资料中用的是假名——是不是一定要Last.fm提供详细的诸如IP地址之类的数据呢?Peter Eckersley在最近的一份技术分析给出了否定的答案。要揪出ID背后的那个人,要执行人肉搜索,可以借助数据挖掘技术来实现。

Last.fm和国内的巨鲸音乐网等网站相似,每个用户可以收藏自己喜欢的歌手和音乐,并将之放在个性化的主页上。网站根据你的爱好会推荐一些与你有相似口味的ID。同时你有一个好友列表,表示你们有某种比较密切的联系。下面我们来看看这些信息如何暴露一个人的身份。
1.用户名:你在这个网站的用户名是不是跟在别的网站一样?而另一个网站上你是不是就填写了详细的资料来告诉人们“我是谁&rdquo?
2.好友列表:每个人的好友列表综合在一起,构成了一副“好友联系图”。在别的网站,比如Facebook,校内网,开心网,也有这样的好友联系图。通过一些数据挖掘算法,就可以把两幅图中近似的部分匹配起来。Last.fm的A,对应Facebook的B。
3.音乐喜好:你是不是在你的博客中讨论过自己的音乐喜好?而这些你最喜欢的音乐是不是都在你Last.fm收藏夹里?如果是这样,那么一个数据挖掘程序就能把你的在Last.fm的帐号跟你的博客,或者一组近似的博客联系起来。那样要找出你是谁就容易多了。
总之,很多时候,根本不需要IP等信息,只要通过仔细的数据挖掘程序,你在Last.fm的公开信息就告诉了世界你是谁。并且,计算机的大容量存储和快速查找能力,使得这一过程比传统的靠人力的“人肉搜索”快得多。

那么,为了避免被人肉搜索到,需要做一些什么呢?下面是Peter Eckersley针对Last.fm这种网站给出的建议:
1 不要用与别的网站相同的用户名。
2 不要在网站上添加真实世界的朋友为好友。
3 不要在别的渠道公开你对音乐的喜好。
4 通过代理软件(Tor等)上Last.fm。
当然,在中国这样做肯定有些大题小作。但是,在别的场合,例如你想在公开的论坛讨论一些敏感话题,又不想被人肉搜索到时,这些建议还是有用的。而我们的网监部门,如果充分利用数据挖掘技术,势必可以揪出更多的人去喝茶,我们生活的这个世界必将更加和谐。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值