32、追踪追踪者：网页内容的快速可扩展动态分析-优快云博客

追踪追踪者：网页内容的快速可扩展动态分析

在当今数字化时代，网页隐私问题日益受到关注。为了深入研究网页内容中的隐私侵犯情况，研究人员开发了一种名为LeakTracker的工具。下面将详细介绍LeakTracker的架构、评估结果以及相关的安全问题。

LeakTracker架构

LeakTracker的架构支持可扩展性，它通过将任务映射到子节点，形成了以“猴子”（monkeys）为叶子节点的树结构。每个“猴子”内部都有一个软件代理，它作为控制器和被监测浏览器之间的联络者。当代理从控制器接收到任务后，会驱动浏览器访问网站。与传统爬虫（如Heritrix）使用索引器的方法相比，这种方法更具优势，因为完整的浏览器可以检查动态生成的页面，而索引器则无法做到。

其工作流程如下：
1. 猴子控制器接收网站列表，并将其划分为每个包含一百个网站的任务。
2. 控制器将任务分配给空闲的猴子，并指示它们开始爬取。
3. 猴子爬取网站，完成任务后，压缩日志并发送到日志服务器。
4. 猴子向控制器发送信号，请求更多任务。
5. 系统持续运行，直到没有更多任务，此时进入空闲状态。

对于每个任务，软件代理会遍历列表，驱动被监测的Firefox浏览器访问每个网站。同时，它还会向浏览器发送按键和鼠标事件，以模拟键盘和鼠标活动，这对于观察网站的行为跟踪非常必要。在让网站运行15秒的超时时间后，代理会关闭浏览器，收集日志，然后继续访问下一个网站。经验表明，15秒的阈值足以让大多数网站完成加载。