迅雷与HTTP流量分析:技术洞察与数据考量
1. 迅雷协议与测量基础设施
迅雷是一款在中国广受欢迎的下载加速应用,其客户端与追踪器之间的协议有着独特的工作方式。当使用资源链接下载文件时,迅雷客户端会向中央追踪器发送包含链接的消息,追踪器则返回两个20字节的哈希值和一个8字节的代码,这些信息用于请求文件的对等节点和服务器资源列表。对于BitTorrent文件,客户端使用文件的信息哈希作为20字节标识符;对于eDonkey文件,标识符从ed2k链接中提取的16字节哈希和文件大小得出。若客户端发送的标识符未被迅雷追踪,追踪器不会返回相应的哈希值和代码。
为了测量迅雷网络的规模,构建了一套测量基础设施,主要包括以下组件:
- 迅雷DHT爬虫 :递归爬取在线迅雷对等节点的路由表,列举DHT中的对等节点列表。对于给定的20字节哈希,爬虫会联系一个对等节点,请求其路由表中接近该哈希的对等节点列表,不断迭代获取更多节点。
- 迅雷追踪器爬虫 :根据特定文件的标识符(URL、BT或eDonkey标识符),持续联系迅雷中央追踪器,获取拥有该文件的迅雷对等节点列表,同时也会获取托管该文件的HTTP和FTP服务器列表。
- 网站爬虫 :开发了4种不同的网站爬虫和网页解析器,针对不同网站进行定制。
- 狗狗爬虫 :爬取狗狗网站的电影数据库,提取每个索引电影的下载链接,并将其传递给追踪器爬虫以收集对等节点和服务器列表。
- 海盗湾爬虫 :监控海盗湾网站的最新电视剧上传情况,提取对应文件的BT
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



