【003-RL-CC】A deep reinforcement learning based congestion control mechanism for NDN_, a deep reinforcement learning based congestion c-优快云博客

本文链接：https://blog.youkuaiyun.com/bajiaoyu517/article/details/118055686

1 基本信息

ID: 003

Available: https://doi.org/10.1109/ICC.2019.8761737

作者：Dehao Lan, Xiaobin Tan, Jinyang Lv, Yang Jin, Jian Yang

Emails: landehao@mail.ustc.edu.cn, xbtan@ustc.edu.cn, jinyangl@mail.ustc.edu.cn, yjinking@mail.ustc.edu.cn and jianyang@ustc.edu.cn

机构：Laboratory for Future Networks, University of Science and Technology of China, Hefei, China

中国科技大学，未来网络实验室

发表会议：2019 IEEE International Conference on Communications, ICC 2019

C类会议，影响因子1.78

标题：A deep reinforcement learning based congestion control mechanism for NDN

基于深度强化学习的NDN拥塞控制机制

算法：DQL

场景：NDN

命名数据网络(Named Data Networking, NDN)
NDN网络可以看作的对基于TCP/IP协议的网络的改进，那么TCP/IP协议存在哪些问题呢？由于目前网络服务以信息内容为主，且移动网络需求增强。TCP/IP实现了两个实体（手机、电脑）之间端到端（进程）的数据信息交换。优势是数据帧设计简单、标准统一、兼容异构网络互联互通、良好的破坏恢复机制、数据开销低。劣势是，1. 由于TCP/IP把所有的上层数据包转换为IP包，此IP网络接受任何人发送的信息（不看数据包内容，比如你去寄快递，X通不管你寄的东西是什么，都给你封装包裹，派送出去），只要发送者合法，这就可能导致恶意信息发送到接受者。2. IP地址网络层寻址器和传输层定位标识符双重作用限制了移动性和多网的灵活性，尤其传输协议绑定地址以确定通信会话，如果地址变化就会中断会话，重新建立连接。

而NDN网络架构，数据包的名字由内容标识，消费者（客户）若请求某内容，则产生有相应名字的Interest包，通过网络转发，达到有此内容的结点（有对应内容缓存的路由或服务端），此结点收到Interest包后，沿此包的路径返回携带相应名字的Data包（Data包有签名，使用加密和分发秘钥控制其他结点对内容的访问权限）。

NDN的主要特征是无连接、提供内容感知、网络内缓存。
NDN的典型应用是移动、实时通信。

2 内容概述

此文，深度强化学习算法考虑到不同内容的多样性，在向网络请求内容时添加前缀。因此，选action时，考虑到了不同的内容。在这种算法中，state包括了带宽利用率、损失速率、数据包顺序参数。在reward function中，也衡量了吞吐量、丢失、重建顺序水平。因此，此算法对比BBR和迭代最近点算法（Iterative Closest Point algorithm）可以在初始阶段快速达到瓶颈带宽。

TCP BBR, Bottleneck Bandwidth and Round-trip propagation time.
一种拥塞控制算法。Goole设计。不同于其他基于丢包作为降低传输速率信号的CC算法，BBR基于模型主动探测网络最大带宽bandwidth和最小延迟RTT。对比NewReno 和Cubic，BBR可以以较小的缓冲区和随机丢包实现更高的吞吐量、以大缓冲区实现降低排队时延。但对比其他CC算法（例如Cubic，一般将缓冲区填满），BBR性能不是很好。BBR已经部署在很多Linux版本中（例如 Linux kernel version 4.9.）。在RL-CC对比实验中，BBR可以作为对比算法，代表高适应性的传统CC算法。

迭代最近点算法(ICP, terative Closest Point algorithm)

2.1 问题

新兴的未来网络架构——命名数据网络（NDN）的出现，使网络通信从push mode转变为pull mode。为了充分利用NDN的能力，需要有适合其特点（例如，无连接、网内缓存、内容感知等等）的拥塞控制算法。因此，拥塞控制算法也需要有处理多样、动态内容的能力。

2.2 方法

首先，重定义了NDN的拥塞控制，需要考虑到不同内容的多样性。
其次，设计一种基于DRL的拥塞控制机制，即DRL-based Congestion Control Protocol (DRL-CCP)。DRL-CCP可以使消费者（对应TCP/IP架构的客户端）从历史拥塞控制经验中自动学习最优拥塞控制策略。
最后，实现了一个带有一些典型的 NDN 拥塞控制算法的真实测试平台，并在该平台上进行了一系列对比实验，以验证 DRL-CCP 的性能。

states: The prefix of requesting content 请求内容前缀, the priority 优先级, CWND, the total number of Interest packets sent, the total number of Data packets received, the total number of packets retransmitted, the average size of packets, the average RTT of packets, the time of monitor interval 监控间隔时间, and the time of decision interval
actions: CWND
rewards: Throughput, RTT, loss, and reordering level

在这里插入图片描述

2.3 结果

DRL-CCP可以应用于各种NDN网络环境，基于内容公平和NDN特点实现了最优拥塞控制，从而满足用户需求。实验表明DRL-CCP有高性能。

2.4 评价

pros: Comprehensive state parameters and well-designed reward function, High link utilization with limited packet loss, packet reordering, and latency