模型思路
一个人对某个知识点的掌握或对某个题目的理解都受到其以往做题经验的影响,而且这个影响会随着时间衰退。比如,学生A和B都依次做了(a,b,c,d,e)五个题目,A的答题记录是(1,0,1,1,1),B的答题记录是(0,1,0,1,0),那么A和B都做到题目e时,他们对其的理解是不同的,即同一个题目对不同做题经验的人来说含义不同(在模型里表现为表征这个题目的vector x 并不是固定的,而是会随着人变化);而对于同样的题目d,学生A和B的response都是1,但是这两个学生答对这个题目后对自身知识的更新结果是不一样的(在模型里表现为答对或答错这个题目之后,知识更新vector y 并不一样)。本文使用context-aware attention的机制来引入这个影响。
模型设置
模型示意图
-
Rasch model-based Embeddings
把原始的题目vector x 和表征题目-反应的vector(原文为raw question-response embeddings) y 纳入到Rasch Model模型中:
x t = c c t + μ q t ⋅ d c t , y t = e ( c t , r t ) + μ q t ⋅ f ( c t , r t ) \mathbf{x}_{t} = \mathbf{c}_{c_{t}} + \mu_{q_{t}} \cdot \mathbf{d}_{c_{t}},\\ \mathbf{y}_{t} = \mathbf{e}_{(c_{t},r_{t})} + \mu_{q_{t}} \cdot \mathbf{f}_{(c_{t},r_{t})} xt=cct+μqt⋅dct,yt=e(ct,rt)+μqt⋅f(ct,rt)
其中 c c t \mathbf{c}_{c_t} cct代表这个题目对应的概念或知识embedding vector, μ q t \mu_{q_t} μqt是一个标量,代表题目难度(我理解为对应Rasch model的 β \beta β参数), d c t \mathbf{d}_{c_t} dct代表这个概念上所有题目的变异(variation)。 e ( c t , r t ) \mathbf{e}_{(c_{t},r_{t})} e(ct,rt)和 f