六度空间--Friends of my friend-优快云博客

本文链接：https://blog.youkuaiyun.com/iteye_8091/article/details/82030529

本文介绍了一种基于“六度空间”理论的应用实践，通过分析社交网络数据来寻找两个陌生人之间的连接路径。文章探讨了数据获取、存储及算法实现等关键技术问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

个人博客：http://coolgo-zq.appspot.com/

前段时间，忽然想到做一个关于“六度空间”的应用-找出两个不认识人的联系。在自己经过一些准备以后，于是，故事开始了。

考虑到数据的敏感性，就不提供代码和数据的下载。在这里探讨一下，抛砖引玉，欢迎大家积极讨论。

“六度空间”理论：你和任何一个陌生人之间所间隔的人不会超过六个，也就是说，最多通过六个人你就能够认识任何一个陌生人。

我们来假设一种场景：Z希望认识某个人X，但是到底采用什么方式去接近X呢。现在如果Z的好友F认识X的话，那么你可以通过F的关系，和X取得了正大光明的交往机会，然后从此一段美好的姻缘就此展开。(三者的关系：Z-->F-->X）

最初，我随意的看了一下几个sns的api，发现大多是对一个用户的好友列表有比较严格的控制，因此如果通过api的访问好友关系的话，会有个很大的弊端：需要用户授权。这样的话，在数据量很小的情况下，基本上就是个废品。这个时候，我又一次深刻的感受到了数据的重要性。

后来，发现rr网可以通过一种方式（下文详细展开）获得好友列表，因此就有了想法，想法之后就有了行动。

首先，要面对的第一个问题就是：在假设已经有了数据的情况下，如果找出两个不认识人之间的关系。先引入2个人X，Y。稍微分析一下，就会发现，好友关系图展开的话就是一张无向图。因此X，Y之间的关系问题就转化为：无向图中找出XY之间的最短路径。于是就考虑到了双向搜索，从X,Y两个人开始进行搜索。找出X的好友的集合SetX,同时找出Y的好友集合setY。setX，setY是否有交集，如果有的话，说明找出了他们之间的联系。如果没有，那么在把找出setX里面的人的好友，即X的好友的好友，同样找出setY。以此类推，直到找到发现两个存在交集。那么这些交集里面的人就是关键性人物了。找到这些人，XY的关系自然也就出来了。

以上是从算法方面考虑，本身并不复杂。

关于数据规模

假设每个人有100个好友，那么每当把好友关系拓展一次，就上升2个数量级，这种指数级的增长太可怕。

因此必须对好友的范围进行控制，于是我打算把好友范围控制在自己的学校。我粗略的估计了一下，我们一届算是4k个人，然后算上研究生博士生，那么也大概在1w吧，然后在算上rr网的年龄，我推算rr网上我们学校的注册用户数可能在8w左右。8w的数据规模虽然不小，但是还是可以接受的。

进过我自己的测试：基本上下载量与有效数据的比例是:400:1,单个人(以200个好友来算)的数据量为2kb~以8万人来计算:有效数据量160mb,下载量达到了64gb。这个下载量还是挺恐怖的。但是还是硬着头皮做了下去。

最后从爬虫爬下来的数据来看，每个人在校内平均大概100个好友，总体人数在4.5w左右。有效数据在30mb左右。

接下来，就是具体的工作：

1.如何实现模拟登录?

2.如何获取好友列表?

3.如何本地存储个人信息?

1.模拟登录：

通过对登陆协议的分析,有抓包工具抓到了post信息，然后发现rr网的登录模拟还是比较简单的。抓包的时候发现一个挺不错的工具，HttpAnalyzer，这个比wireshark好用一点。

在rr网登录过程中，只返回四个有效信息：email，password，origURL，domain。而且还是明文传输的。因此只要简单写一个登录方法，把这些值传过去就自然登录成功了。

2.获得好友列表：

http：//friend.renren.com/GetFriendList.do?curpage=【页码】&id=【你需要找的id】

这个页码会返回一个此id的好友列表的页面，然后对这个页面提取有效信息就行了。

这是我的正则表达式

String regex = "<p class=\"avatar\"><a href=\"http://www.renren.com/profile.do\\?id=[0-9]+\"><img src=\"http://.+\" alt=\"http://.+\" /></a></p>";

值得一提的是，注意一下img 的src，里面的url的前缀不是每一个都相同的。我估计是rr网在升级的时候，一部分用户的头像还是取自老服务器，新用户在新服务器。

3.本地存储：

我使用了json格式来储存，使用的是gson包，操作起来比较简单。为了减少本地信息量，我存储了四个信息：id,name,imgUrl,school,friends。

public class Person {
	private String id;
	private String name;
	private String school;
	private String imgUrl;
	private List<String> friends;
}

然后把所有的person放到了一个hashMap<id,Person>里面了。这样方便通过id直接找到person对象。

在最初阶段，我以为数据存储会比较大，所以没有考虑存到同一个文件中。而是每个person存放到了一个文件，这样下来的话，一共有4w+个小文件，每个文件只有1k左右。

缺点：当进行查询的关系的时候，IO资源太可怕，每找一个好友就要进行一次IO，当进行双向搜索的时候，这样磁盘扛不住啊这样很蛋疼。

后来参考了Create Chen的做法，把所有的都存放到了同一个文件中。于是就像把所有的person在程序刚启动时就load到内存的hashMap<id,Person>中。

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.HashMap;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;
import java.util.Queue;
import java.util.Scanner;
import java.util.Vector;

import com.google.gson.Gson;
import com.google.gson.reflect.TypeToken;
public class FFinder {
	public Gson gson = new Gson();
	private Map<String, Person> map;
	private int[] step = new int[50000];
	/** 记录v[i]记录的是到达person[i]的前一个节点。 */
	private Vector<Vector<String>> from = new Vector<Vector<String>>();
	private Queue<String> q1 = new LinkedList<String>();
	private Queue<String> q2 = new LinkedList<String>();
	/** 将person.id映射到step数值中 */
	private Map<String, String> idmap = new HashMap<String, String>();
	public void getRelation(String id1, String id2) throws IOException {
		System.out.println(map.get(id1).getName()+"-->"+map.get(id2).getName());
		init();
		q1.add(id1);
		from.add(new Vector<String>());
		from.get(0).add(id1);
		idmap.put(id1, String.valueOf(idmap.size()));
		step[0] = 1;
		q2.add(id2);
		from.get(1).add(id2);
		idmap.put(id2, String.valueOf(idmap.size()));
		step[1] = -1;
		// 是否交集
		boolean isMeet = false;
		Queue<String> join = new LinkedList<String>();
		while (!q1.isEmpty() && !q2.isEmpty()) {
			Queue<String> nextQ = new LinkedList<String>();
			isMeet = deepFindHead(join, nextQ);
			if (isMeet)
				break;
			q1 = nextQ;
			nextQ = null;
			nextQ = new LinkedList<String>();
			isMeet = deepFinderTail(join, nextQ);
			q2 = nextQ;
		}
		System.out.println("join=" + gson.toJson(join));
	}
	private void init() {
		step = new int[50000];
		from = new Vector<Vector<String>>();
		q1 = new LinkedList<String>();
		q2 = new LinkedList<String>();
		idmap = new HashMap<String, String>();
	/**
	 * @param join
	 * @param nextQ
	 * @return
	 */
	private boolean deepFinderTail(Queue<String> join, Queue<String> nextQ) {
		String cur;
		Person p;
		int curIdnum;
		while (!q2.isEmpty()) {
			cur = q2.poll();
			curIdnum = Integer.parseInt(idmap.get(cur));
			p = map.get(cur);
			List<String> friends = p.getFriends();
			for (String id : friends) {
				int idnum;
				if (idmap.containsKey(id)) {
					idnum = Integer.parseInt(idmap.get(id));
					/**
					 * 说明已经到达过此人 如果step[idnum]为-，则说明是从id2出来的,continue;
					 * 如果为+，则说明找到了双向搜索出现了交集。
					 */
					if (step[idnum] < 0)
						continue;
					else if (step[idnum] > 0) {
						// 找到交集
						isMeet = true;
						System.out.println("="+step[curIdnum]+"，通过"+(-2*step[curIdnum]-1));
						from.get(idnum).add(cur);
						join.add(id);
					}
				}
				idmap.put(id, String.valueOf(idmap.size()));
				idnum = idmap.size() - 1;
				step[idnum] = step[curIdnum] - 1;
				from.add(new Vector<String>());
				from.get(idnum).add(cur);
				if (!isMeet)
					nextQ.add(id);
			}
		return isMeet;
	private boolean deepFindHead(Queue<String> join, Queue<String> nextQ) {
		while (!q1.isEmpty()) {
			cur = q1.poll();
					 * 说明已经到达过此人 如果step[idnum]为正，则说明是从id1出来的,continue;
					 * 如果为负数，则说明找到了双向搜索出现了交集。
					if (step[idnum] > 0)
					else if (step[idnum] < 0) {
						System.out.println("="+step[curIdnum]+"，通过"+(2*step[curIdnum]-2));
				step[idnum] = step[curIdnum] + 1;
	public Map<String, Person> loadData(String path) throws IOException {
		File f = new File(path);
		BufferedReader in = new BufferedReader(new FileReader(f));
		Map<String, Person> t = gson.fromJson(in.readLine(),
				new TypeToken<Map<String, Person>>() {
				}.getType());
		in.close();
		this.map = t;
		System.out.println("load ok!");
		return t;
	public static void main(String[] argv) throws IOException {
		Scanner scan = new Scanner(System.in);
		FFinder f = new FFinder();
		f.loadData("D:/1/allData_save.data");
		String id1, id2;
		while (true) {
			id1 = scan.next();
			id2 = scan.next();
			System.out.println(id1 + "-->" + id2);
			f.getRelation(id1, id2);
}