强化学习及其在网络规划中的应用

深度强化学习在网络资源分配中的应用
本文探讨了强化学习在解决网络资源分配问题上的应用,包括DQN、Policy Gradients、DDPG和PPO等算法。这些方法在6G区域卫星网络、NFV-IoT和多智能体系统等场景下,展示了高效动态的服务功能链嵌入和负载均衡能力。

与有监督机器学习方法相比,DRL方法中没有实际的损失函数。

强化学习分类

  1. Q函数(Value-based Function)
    Q函数也就是经常用到的价值函数,用来估计一个(s,a)状态动作对的价值。
    Q函数的输入是“状态和动作”,输出“价值”。

1.1 Q-Learning
根据reward矩阵,在训练过程中更新Q表(Q表用于记录状态-动作对的值。每个episode中的每一步都会更新一次Q表。每一次episode的结束指的是完成任务,比如迷宫问题指的是到达终点,可参考强化学习——从Q-Learning到DQN

1.2 DQN
值函数近似(Function Approximation)的方法就是为了解决状态空间过大,也称为“维度灾难”的问题。通过用函数而不是Q表来表示 Q( s,a) ,这个函数可以是线性的也可以使非线性的。
DQN是一种深度强化学习。就是用神经网络进行function approximation(函数逼近),来模拟Q函数。
DQN(Deep Q-Network)了,实际上它就是Q-Learning和神经网络的结合,将Q-Learning的Q表变成了Q-Network.

  1. 策略函数(Policy-based Function)
    策略函数则是根据状态来输出动作或者动作的概率。 策略函数的输入是“状态”,输出是“动作或者动作的概率”。
    **Even if the probability is small, they may be selected.**但, The higher the output probability of the node, the more likely it can be selected. However, it is not absolute that the node with the higher probabi

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值