追踪追踪者:网页内容的快速可扩展动态分析
在当今数字化时代,网页隐私问题日益受到关注。为了深入研究网页内容中的隐私侵犯情况,研究人员开发了一种名为LeakTracker的工具。下面将详细介绍LeakTracker的架构、评估结果以及相关的安全问题。
LeakTracker架构
LeakTracker的架构支持可扩展性,它通过将任务映射到子节点,形成了以“猴子”(monkeys)为叶子节点的树结构。每个“猴子”内部都有一个软件代理,它作为控制器和被监测浏览器之间的联络者。当代理从控制器接收到任务后,会驱动浏览器访问网站。与传统爬虫(如Heritrix)使用索引器的方法相比,这种方法更具优势,因为完整的浏览器可以检查动态生成的页面,而索引器则无法做到。
其工作流程如下:
1. 猴子控制器接收网站列表,并将其划分为每个包含一百个网站的任务。
2. 控制器将任务分配给空闲的猴子,并指示它们开始爬取。
3. 猴子爬取网站,完成任务后,压缩日志并发送到日志服务器。
4. 猴子向控制器发送信号,请求更多任务。
5. 系统持续运行,直到没有更多任务,此时进入空闲状态。
对于每个任务,软件代理会遍历列表,驱动被监测的Firefox浏览器访问每个网站。同时,它还会向浏览器发送按键和鼠标事件,以模拟键盘和鼠标活动,这对于观察网站的行为跟踪非常必要。在让网站运行15秒的超时时间后,代理会关闭浏览器,收集日志,然后继续访问下一个网站。经验表明,15秒的阈值足以让大多数网站完成加载。
评估与发现
研究人员将LeakTracker部署在生产系统上,对网络进行了调查。在原型中,使用了十个“猴子”(每
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



