开放语料自适应超媒体与在线数学辅导系统研究
1. 开放语料自适应超媒体相关研究
1.1 学生知识向量与文档新颖性
若学生阅读了文档 (d_1, d_2, …, d_n),其知识向量可表示为 (d_i = (\frac{\sum_{k=1}^{n} w_1(d_k)}{n}, \frac{\sum_{k=1}^{n} w_2(d_k)}{n}, …, \frac{\sum_{k=1}^{n} w_m(d_k)}{n}))。文档新颖性是文档向量与学生知识向量之间差异的度量,我们将这两个向量余弦相似度的补数(即 1 减去余弦相似度)定义为新颖性度量。
1.2 语言模型
语言模型是一种概率分布,用于捕捉特征序列的概率。在现代信息检索中,它在识别不同任务中的相关文档方面显示出了潜力。利用语言模型进行新颖性检测的自然方法是估计某个学生查看的一组文档和即将出现的新文档由同一语言模型生成的可能性。Kullback - Leibler(KL)散度是一种分布相似度度量,用于估计给定一组已查看文档时一个文档的冗余度,公式为 (R(d_t|d_i) = -KL(\theta_{d_t}, \theta_{d_i}) = -\sum_{w_i} p(w_i|\theta_{d_i}) \log(\frac{p(w_i|\theta_{d_t})}{p(w_i|\theta_{d_i})}))。在语言模型方法中,文档 (d) 由一元词分布 (\theta_d) 表示,它是一个多项分布,可通过最大似然估计(MLE)进行简单估计。但 MLE 存在问题,若一个词在文档 (d) 中从未出现,会得到零概率,若一个词在 (d_t) 中但不在 (d_i) 中,会导致 (KL(\theta_i|\theta_j
超级会员免费看
订阅专栏 解锁全文

1092

被折叠的 条评论
为什么被折叠?



