网络数据处理与查询选择性估计的技术探索
1. 网络数据分析的挑战与解决方案
在网络数据的分析中,需要运用数据分析方法来识别并聚类相似的行为,同时要特别关注之前提到的维度。Neubot 等项目的一个重要目标是判断事件是用户本地的,还是由更普遍的条件(如网络拥塞)导致的。
- 判断事件性质的意义 :如果是用户本地事件,用户可能希望得到通知,以了解行为是否正常;如果是普遍条件导致的,很可能是用户与互联网骨干之间有某些活动(如流量整形)。
- 检测方法 :可以通过统计性能分析来判断体验到的性能是典型的还是偶尔发生的。例如,根据客户端 IP 地址按运营商分离数据,并在每个子集中识别对应于用户典型连接速度的簇。但由于全球运营商众多,手动分析数据来找到这些簇是不可行的,因此需要自动方法。
- 维度影响 :之前提到的维度会影响簇的位置,簇的平均值取决于时间和位置等多种因素,且这些平均值之间可能存在相互关联,对研究人员理解网络动态有重要指示作用。
以下是一个简单的分析流程表格:
|步骤|操作|
|----|----|
|1|进行统计性能分析|
|2|根据客户端 IP 地址按运营商分离数据|
|3|在每个子集中识别簇|
|4|寻找平均值之间的相互关联|
2. 网络数据分析案例研究
当完成上述分析后,可以实时提醒测量结果与预期行为有显著差异的用户。以 2013 年 4 月使用某运营商连接互联网的客户端测试为例,下载速度用灰色点表示,特定用户用黑色星号表示。大部分该用户的点接近其