大规模网络流量分析:IP地址规模估算与流量异常检测
1. 引言
如今,大量互联网服务如网页搜索、网络邮件、地图等,不仅高度可用且免费提供。这些服务的设计、部署和维护成本高昂,其得以实现主要依赖互联网广告带来的收益。然而,广告行业面临着恶意点击攻击的威胁,这对互联网服务的健康发展构成了严重挑战。
恶意点击攻击可分为发布商攻击和广告商攻击。发布商攻击通过制造虚假流量来增加广告收入;广告商攻击则旨在增加竞争对手广告的点击量,消耗其广告预算,从而限制其市场曝光度。这些攻击手段多样,从简单的请求朋友重复点击到利用僵尸网络自动生成大量虚假流量不等。
为应对这些问题,需要构建统计模型来估算共享公共IP地址的用户数量(即IP规模),并检测流量异常。这种方法具有可扩展性和并行性,能够基于被动挖掘聚合应用日志数据,提供统计上可靠且及时的IP规模估算,而无需对机器进行探测或部署主动内容。
2. IP规模:挑战与方法
IP规模的定义基于应用和时间两个维度。每个IP针对不同应用有特定规模,且随时间变化,如突发流量高峰或IP重新分配时。因此,规模估算需要频繁进行以适应这些变化,同时估算周期要足够长,以确保足够的IP覆盖和每个IP的流量,从而产生统计上可靠的估算结果。
2.1 估算挑战与方法
估算单个IP规模时,用户隐私是首要考虑因素。可以通过应用级日志文件来估算IP规模,以保护用户隐私。具体做法包括:
- 临时识别应用用户,避免泄露个人身份信息。
- 不跟踪单个机器。
- 使用基于IP级聚合的应用日志数据。
然而,直接从日志文件中估算IP规模并不容易。简单地统计每个IP的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



