可解释强化学习算法的评估与分析
1. 算法原理
1.1 规则提取
在决策过程中,通过线性回归计算动作。可以提取规则 (A \Rightarrow B),其中 (A) 是从根节点到叶节点的分裂条件的逻辑合取,(B) 是叶节点的线性回归。例如在 RET 问题中,规则可以表示为:
(RSRP \in (k_{min}, k_{max}) \Rightarrow Q(s, a1) = w_0 + w_1 \cdot RSRP + w_2 \cdot SINR + w_3 \cdot \theta)
其中 (k_{min}) 和 (k_{max}) 是常数,(w_i) 是触发的线性回归的权重。
1.2 全局特征重要性
通过特征重要性提供全局解释。设 (N_f) 是线性树中使用特征 (f) 进行分裂的节点集合。特征 (f) 的全局重要性定义为:
(\varphi(f) = \sum_{n \in N_s(f)} \varphi_n(f))
单个分裂节点 (n \in N_f) 的特征重要性计算如下:
(\varphi_n(f) = \left(1 + \frac{|w_{n,f}|^2}{\sum_{j = 1}^{F} |w_{n,j}|^2}\right) \cdot \left(var_n - \sum_{c = 1}^{C} \frac{I_c}{\sum_{i = 1}^{C} I_i} \cdot var_c\right), \forall n \in F_s)
其中 (F) 是特征的数量,(C) 是子节点的数量,(var_i) 和 (I_i) 分别是节点 (i) 中存储的 (Q(s, a))
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



