83、可解释强化学习算法的评估与分析

可解释强化学习算法的评估与分析

1. 算法原理

1.1 规则提取

在决策过程中,通过线性回归计算动作。可以提取规则 (A \Rightarrow B),其中 (A) 是从根节点到叶节点的分裂条件的逻辑合取,(B) 是叶节点的线性回归。例如在 RET 问题中,规则可以表示为:
(RSRP \in (k_{min}, k_{max}) \Rightarrow Q(s, a1) = w_0 + w_1 \cdot RSRP + w_2 \cdot SINR + w_3 \cdot \theta)
其中 (k_{min}) 和 (k_{max}) 是常数,(w_i) 是触发的线性回归的权重。

1.2 全局特征重要性

通过特征重要性提供全局解释。设 (N_f) 是线性树中使用特征 (f) 进行分裂的节点集合。特征 (f) 的全局重要性定义为:
(\varphi(f) = \sum_{n \in N_s(f)} \varphi_n(f))
单个分裂节点 (n \in N_f) 的特征重要性计算如下:
(\varphi_n(f) = \left(1 + \frac{|w_{n,f}|^2}{\sum_{j = 1}^{F} |w_{n,j}|^2}\right) \cdot \left(var_n - \sum_{c = 1}^{C} \frac{I_c}{\sum_{i = 1}^{C} I_i} \cdot var_c\right), \forall n \in F_s)
其中 (F) 是特征的数量,(C) 是子节点的数量,(var_i) 和 (I_i) 分别是节点 (i) 中存储的 (Q(s, a))

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值