83、可解释强化学习算法的评估与分析-优快云博客

本文链接：https://blog.youkuaiyun.com/rice5/article/details/150569704

可解释强化学习算法的评估与分析

1. 算法原理

1.1 规则提取

在决策过程中，通过线性回归计算动作。可以提取规则 (A \Rightarrow B)，其中 (A) 是从根节点到叶节点的分裂条件的逻辑合取，(B) 是叶节点的线性回归。例如在 RET 问题中，规则可以表示为：
(RSRP \in (k_{min}, k_{max}) \Rightarrow Q(s, a1) = w_0 + w_1 \cdot RSRP + w_2 \cdot SINR + w_3 \cdot \theta)
其中 (k_{min}) 和 (k_{max}) 是常数，(w_i) 是触发的线性回归的权重。

1.2 全局特征重要性

通过特征重要性提供全局解释。设 (N_f) 是线性树中使用特征 (f) 进行分裂的节点集合。特征 (f) 的全局重要性定义为：
(\varphi(f) = \sum_{n \in N_s(f)} \varphi_n(f))
单个分裂节点 (n \in N_f) 的特征重要性计算如下：
(\varphi_n(f) = \left(1 + \frac{|w_{n,f}|^2}{\sum_{j = 1}^{F} |w_{n,j}|^2}\right) \cdot \left(var_n - \sum_{c = 1}^{C} \frac{I_c}{\sum_{i = 1}^{C} I_i} \cdot var_c\right), \forall n \in F_s)
其中 (F) 是特征的数量，(C) 是子节点的数量，(var_i) 和 (I_i) 分别是节点 (i) 中存储的 (Q(s, a))