60、探索简单解释和自主性对批量深度强化学习的影响及学习分析仪表板的钻取建议-优快云博客

本文链接：https://blog.youkuaiyun.com/tree8/article/details/149393981

探索简单解释和自主性对批量深度强化学习的影响及学习分析仪表板的钻取建议

1. 批量深度强化学习实验设置

在北卡罗来纳州立大学的本科离散数学课程中，使用了名为“Deep Thought”的基于图的逻辑导师智能辅导系统（ITS）。在这个系统里，学生需要按顺序对逻辑陈述节点应用规则，从而推导出结论节点并解决问题。该导师系统包含七个级别，每个级别有三到四个问题，其中一级是预测试，七级是后测试，所有学生在预测试和后测试中遇到的问题及方式完全相同。

教学策略决定了在 2 - 6 级的训练中，每个问题是以示例（Worked Example，WE）形式呈现，还是以问题解决（Problem Solving，PS）形式呈现。基线策略由有 20 多年该学科教学经验的教师设计，被称为专家设计的基线策略。基于 ITS、过往教学经验以及关于示例和问题解决的研究，专家基线策略基本上是一种交替的示例 - 问题解决策略，且有额外约束：每个级别学生至少要完成一个问题解决和一个示例。

进行了两项研究：
- 2018 年秋季（F18）：84 名学生根据预测试成绩进行分层抽样，随机分配到两个条件组。其中，深度 Q 网络（DQN）条件组有 41 名学生，导师遵循诱导的 DQN 策略且无解释；专家基线条件组有 43 名学生。分层抽样使两组学生的初始能力平衡，DQN 组预测试平均分（M = 59.23，SD = 30.63）和专家组（M = 57.42，SD = 30.95）无显著差异（t(82) = 0.27，p = 0.79）。
- 2019 年春季（S19）：83 名学生通过分层抽样随机分配到三个条件组。分别是带解释的 DQN（DQN + Explanation，DQN+Exp）组（N = 30）、学