日本商业 ISP 骨干网住宅宽带流量特征解析
1. 国内流量及隐藏流量问题
由于互联网服务提供商(ISPs)不会披露其路由策略和内部数据,国内流量(尤其是私人对等互联流量)难以准确掌握。因此,(B1)和(B2)之间的比率有助于估算隐藏的流量。数据显示,其他国内流量比 6IXes 的流量大约大 50%。这意味着仅根据 IXes 数据计算全国流量时,存在低估的风险。通常,像参与调查的大型 ISPs 倾向于通过私人对等互联直接相互连接,以减少通过 IXes 的流量,但小型 ISPs 则不然。所以,估算的比率应用于小型 ISPs 时可能会偏高。
2. 流量增长情况
- 整体增长速率 :通过过去 21 个月收集的数据,分析各流量组的平均流量增长率。所有组的流量每年增长 120 - 150%,这与 IXes 直接测量的峰值速率年增长率(140%)大致一致。
- RBB 客户流量差异 :在过去 12 个月里,(A1)RBB 客户流量的入站和出站流量差异增大。这可能是因为 ISPs 在 P2P 软件发生信息泄露事件后,警告客户不要使用 P2P 软件,导致客户上传流量减少。
- 流量增长模式 :对比 2004 年 11 月和 2005 年 11 月每周入站 RBB 客户流量,发现流量增长了 1.26 倍,但每日流量模式相似。归一化流量(减去平均值)显示两组数据差异很小,且在特定时间段内,2004 年的流量大于 2005 年。这表明流量增长仅受恒定流量部分影响,人类活动相关客户的贡献远小于人类活动无关客户的贡献。
- 全国流量估算 :为估算日本 RBB 客户的全国流量,需确定七个参与调查的 ISPs 在所有 ISPs 中的流量份额。通过比较从 ISP 端测量的 6IXes 流量(B1)与六个 IXes 直接测量的总流量,发现两者呈线性关系,斜率为 0.43。这意味着七个 ISPs 的流量占最近 21 个月总 IXes 流量的 43%。据此估算,截至 2005 年 11 月,日本全国 RBB 平均流量为 384 Gbps(184 Gbps / 43%),2 小时分辨率的峰值流量为 581 Gbps(250 Gbps / 43%)。
3. 轻用户和重用户分析
- 用户分类 :根据采样的 Netflow 数据,以每日流量 2.5 Gbytes(230 kbps)为分界点,将用户分为重用户(使用流量超过 2.5 Gbytes)和轻用户(其余用户)。约 96%的用户每日流量小于 2.5 Gbytes。
- 轻用户流量特征 :轻用户的入站和出站流量在 10 Mbytes 左右开始出现偏差,入站流量的 50%分位数(10 Mbytes)比出站流量(100 Mbytes)小 10 倍,表明轻用户的流量使用是不对称的。
- 重用户流量特征 :少数重用户每天交换的流量超过 100 Gbytes,在这个区域内未发现明显的流量不对称性。
- 用户流量分布影响 :数据集中每个用户的平均入站流量为 430 Mbytes/天(40 kbps),出站流量为 446 Mbytes/天(41 kbps)。但由于流量分布缓慢衰减,90%的用户发送/接收的流量小于平均流量,因此用平均流量来讨论客户的流量需求是不准确的。
- 重用户对流量的贡献 :前 4%的重用户贡献了 75%(入站)和 55%(出站)的流量,前 10%的用户分别占 95%和 85%。这说明大多数用户对骨干网流量的影响可以忽略不计,呈现出“赢家通吃”的现象。
- 入站和出站流量关系 :在对数 - 对数尺度下的入站和出站流量散点图显示,两者存在明显的正相关。对于出站流量小于 10⁹ 字节的情况,出站流量是入站流量的 10 倍,表明此区域内客户的下载数据使用占主导。而出站流量大于 10⁹ 字节时,存在两种情况:一种是与低流量区域相同的趋势(下载是上传的 10 倍),另一种是入站和出站流量几乎平衡。这意味着一定比例的客户流量需求可能是对称的,更多向 FTTH 接入线路的迁移将导致客户向骨干网上传更多流量。
4. 应用类型分析
- 整体协议分布 :采样的 Netflow 数据显示,端口号小于 1024 的知名端口服务仅占 14%,尽管 TCP 服务占 97.5%,但仍有 79%的流量难以明确其应用类型。目前,很难根据 TCP/UDP 端口号估算流量的应用类型,P2P 软件的数据传输可能隐藏在这 79%的流量中。这也提醒我们,主导应用类型会随时间变化,如几年前占主导的 Web 服务现在仅占 9%。随着 RBB 接入线路的更多部署,可能会出现新的高带宽消耗应用。
- 轻用户和重用户协议差异 :轻用户中 TCP 端口号小于 1024 的流量占 30.7%,重用户中仅占 5.1%。轻用户前 5 大端口号对应的应用为 http(80: 24.7%)、winmx(6699: 1.8%)、ftp - data(20: 1.4%)、rtsp(554: 1.1%)和 gnutella(6346: 1.1%)。轻用户的应用使用更接近传统类型,但仍有超过 50%的流量来自未识别端口号,且 P2P 软件使用的知名端口号比例未大幅下降。这表明 P2P 软件在一定比例的轻用户 PC 上仍在运行,难以将客户清晰地分为轻用户和重用户两组,P2P 软件的使用时长可能是决定流量大小的控制参数,轻用户也可能因随意使用 P2P 软件而转变为重用户。
以下是部分数据的表格展示:
| 类别 | 端口号小于 1024 流量占比 | 前 5 大端口号及对应应用 |
| ---- | ---- | ---- |
| 所有用户 | 14% | - |
| 轻用户 | 30.7% | http(80: 24.7%)、winmx(6699: 1.8%)、ftp - data(20: 1.4%)、rtsp(554: 1.1%)、gnutella(6346: 1.1%) |
| 重用户 | 5.1% | - |
mermaid 流程图展示流量增长分析流程:
graph LR
A[收集 21 个月数据] --> B[分析各流量组平均流量增长率]
B --> C{是否与 IXes 峰值速率增长率一致}
C -- 是 --> D[分析 RBB 客户流量差异]
C -- 否 --> E[进一步检查数据准确性]
D --> F[对比不同时间 RBB 客户流量]
F --> G[估算全国流量]
5. 区域差异分析
- 流量模式差异 :利用 SNMP 数据观察大都市和农村地区的每周流量行为。在大都市地区,工作日白天的流量行为具有独特性,出站流量是入站流量的 1.5 倍,且在 11:00 - 13:00 出现第二高峰,这表明该地区的流量模式是住宅宽带客户和使用 RBB 接入线路的商业客户(如 SOHO 和小公司)活动的综合体现。而农村地区白天没有明显的活动高峰,流量行为更接近住宅宽带客户的综合行为。
- 用户流量分布差异 :通过采样的 Netflow 数据绘制大都市和农村地区每个用户的流量累积分布,尽管样本数量不同,但两者的函数形式,包括分界点位置,没有明显差异。这意味着大都市和农村地区的轻用户和重用户的组成比例没有差异。
- 流量与人口关系 :分析一个地区的人口与该地区的平均流量之间的关系,发现两者大致呈线性关系,即地区的流量与人口成正比。这表明每个用户的平均流量是恒定的,与人口规模无关,重用户存在的概率不受地理位置(大都市或农村地区)的影响。
- 流量分布特征 :绘制地区流量的累积分布,发现其符合缓慢衰减的分布,接近幂律分布。大多数地区的客户流量较少,只有少数地区产生了大部分流量。这反映出流量高度集中在少数地区,但这种特征是由于流量与人口成正比,而人口分布本身就是缓慢衰减的。
以下是区域流量特征的表格总结:
| 区域类型 | 流量模式特点 | 用户流量分布 | 流量与人口关系 | 流量分布特征 |
| ---- | ---- | ---- | ---- | ---- |
| 大都市地区 | 工作日白天有独特高峰,出站流量大于入站流量 | 轻、重用户比例与农村无差异 | 流量与人口成正比 | 流量集中在少数地区 |
| 农村地区 | 白天无明显高峰,接近住宅宽带客户综合行为 | 轻、重用户比例与大都市无差异 | 流量与人口成正比 | 流量集中在少数地区 |
6. 流量的本地性分析
- 数据库使用 :为了量化流量使用的地理影响,使用了采样的 Netflow 数据和两个地理 IP 数据库(Cyber Area Resarch Inc 的 SUTFPOINT 和 Digital Envoy 的 Netacuity)。前者将国内住宅客户的地址块映射到相应的地区,但不涵盖数据中心和专线等非住宅地址;后者将前者未涵盖的地址简单分类为国内或国际。
-
流量矩阵分析
:
- 三个流量组(住宅宽带用户 RBB、其他国内 DOM 和国际 INTR)的流量矩阵显示,用户到用户的流量(RBB 到 RBB)占 63%,可能由 P2P 软件产生。90%的流量留在国内,这可能是由于高带宽的 P2P 超级节点紧密连接,以及日本的语言和文化障碍。但从数据中无法确认国际流量的不对称性。
- 日本 47 个地区的流量矩阵显示,流量明显集中在东京、爱知、大阪和福冈等大都市地区。同一地区内的流量存在明显的相关性,这可能反映了当地社区的信息交换和共享活动。
流量本地性分析的 mermaid 流程图如下:
graph LR
A[获取采样 Netflow 数据] --> B[使用两个地理 IP 数据库分类地址]
B --> C[构建三个流量组流量矩阵]
C --> D{用户到用户流量占比高?}
D -- 是 --> E[分析国内流量占比原因]
D -- 否 --> F[重新检查数据分类]
E --> G[构建 47 个地区流量矩阵]
G --> H[分析流量集中地区和本地相关性]
7. 总结
对日本商业 ISP 骨干网中住宅宽带流量的特征进行了全面分析。截至 2005 年 11 月,日本全国 RBB 客户的流量估计为 581 Gbps,年增长率为 120 - 140%。RBB 客户的每周流量模式与学术和传统商业流量模式完全不同,入站和出站流量几乎对称,高峰时间转移到 21:00 - 23:00。流量行为可大致分为人类活动相关和无关两类,后者占恒定 RBB 流量的 70%。
私人对等互联流量比 6IXes 流量大 150%,仅根据 6IXes 观测估算全国流量会产生低估。国际流量占总流量的 30%,大部分流量集中在国内,可能是由于国内 P2P 超级节点紧密连接以及语言和文化障碍。
在区域差异方面,地区流量与人口成正比,轻用户和重用户的分布在大都市和农村地区无明显差异,但流量存在强烈的本地性,用户到用户流量的 63%在国内,且目的地集中在大都市地区。
从用户角度来看,平均流量不能作为性能指标,因为流量累积分布高度偏斜,少数重用户贡献了大部分流量。此外,目前很难根据 TCP/UDP 端口号确定流量的应用类型,P2P 软件的数据传输可能隐藏在大部分未识别的流量中。随着 RBB 接入线路的增加,可能会出现新的高带宽消耗应用。未来,需要继续收集参与调查的 ISP 的聚合流量日志,并对其他 ISP 进行用户流量分析。
超级会员免费看
2461

被折叠的 条评论
为什么被折叠?



