学习日记-250302

阅读论文:

Knowledge Tracing:A survey

可以在Dependency Graph上下功夫

主要提出KT中的难点:

①关联很多skill

②只有skillA,但是实际还需要skillB,C因为skill的依赖性

③建模遗忘特征,遗忘知识的顺序,技能可以根据它们与遗忘的相关性进行排序

deep KT:

利用RNN方法

最近主要从以下方面进行KT的研究:

Memory structures.

②Attention mechanisms.transformer被用来捕获问题之间的相关性

Graph representation learning,问题和skill之间的关系

④文本功能。问题文本可能包含大量丰富的信息,如问题所需的技能、问题的难度以及问题之间的关系。一些深度学习KT模型利用了从问题文本中提取的文本特征来学习问题表示和跟踪学生的知识状态(例如,[64,104,128])。

⑤forget。受学习曲线理论[77]的启发,最近发展深度学习KT模型的一个趋势是纳入遗忘特征,以便学生的遗忘行为可以考虑到知识追踪(如[3,20,79])。

一、传统KT(贝叶斯KT+因子分析)

2.1.3

讨论贝叶斯知识追踪模型和因子分析模型的优缺点。从模型参数、模型推理和时间分析三个方面讨论了它们之间的联系和差异。

①先验学习参数p(L0)、学习速率参数p(T)、猜测参数p (G)、滑移参数p (S) [25]及其学生特定变量

Temporal analysis:BKT模型本质上是处理一个基于学生学习历史的序列预测问题。相比之下,因子分析模型没有考虑观察学生答案的问题的顺序。

二、DKT

DKT(包含Neural Network (RNN) [63]+a Long Short Term Memory)

1、两种key,value记忆网络:

其中,k矩阵存储了knowledge component(知识点组成)

value矩阵存储了学生对每个知识点的掌握程度

①DKVMN

  • Mk∈RN×dk​表示key矩阵,Mvt∈RN×dv表示在时间步t时的value矩阵。假设学习任务中所有的题目都基于N个潜在的知识点。
  • 对于时间步tt的问题qtqt​,计算一个相关权重wt​,这个权重反映了问题qt与key矩阵Mk中存储的潜在知识点之间的关联度。

知识状态,Rt为当前掌握矩阵value和知识点i的知识状态,wi为权重。

②SKVMN

Hop-LSTM

充分利用到了历史信息,因为DKVMN中会把前边相似的练习和隐藏状态聚合为一个新状态

2.2.3 Attentive Knowledge Tracing Models.

①SAKT(Self-Attentive Knowledge Tracing

用多头自注意力计算过去互动中的问题对于预测学生对当前问题的回答的重要性。然后,将来自不同代表性子空间的注意矩阵发送到前馈网络,以预测学生的表现。

Attentive Knowledge Tracing (AKT)

AKT与SAKT的不同之处在于它的注意机制称为单调注意(即缩放点积注意机制[115]的一个改进的单调版本),它可以在指数衰减率中与时间距离成比例的交互序列中减少问题的注意权重。指数权重衰减是为了考虑随着时间的推移,学生记忆中的遗忘效应。此外,还提出了一种嵌入表示来考虑一个参数,通过遵循Rasch模型[92]来控制一个问题与它所涉及的知识组件的偏离程度。

Separated Self-AttentIve Neural Knowledge Tracing (SAINT)

SAINT模型
背景与创新点:
SAINT 由Choi等人提出,它不同于AKT(Attention-Based Knowledge Tracing)和SAKT(Self-Attentive Knowledge Tracing),主要在于其采用了类似于Transformer架构的编码器-解码器模型,并结合了缩放点积注意力机制。
Transformer是一种基于自注意力机制的深度学习模型,最初用于自然语言处理任务,因其能够高效地捕捉序列中的长距离依赖关系而受到关注。
模型结构:
输入分离:SAINT将学生的一系列交互分为两个独立的序列——问题嵌入序列和回答嵌入序列。这两个序列分别作为输入送入编码器和解码器。
问题嵌入序列:包含了一系列问题的嵌入表示。
回答嵌入序列:包含了学生对这些问题的回答的嵌入表示。
编码器与解码器:两者均由多头注意力网络组成,这些网络使用了缩放点积注意力机制。这种设计使得模型能够更有效地捕捉序列中不同元素之间的复杂依赖关系。
SAINT+模型
扩展与改进:
时间相关特征的引入:为了进一步提升模型的表现,SAINT被扩展为SAINT+,加入了两个与时间相关的特征到回答嵌入序列中:
已用时间(Elapsed Time):记录学生回答每个问题所花费的时间。
滞后时间(Lag Time):记录两次连续学习交互之间的时间间隔。
这些时间特征的加入有助于模型更好地理解学生的答题模式和学习节奏,从而提高预测准确性。
意义:
加入时间特征后,SAINT+不仅考虑了学生对知识的理解程度,还综合考量了时间因素对学生表现的影响。例如,较长的回答时间可能暗示学生对该知识点不够熟悉,或者在思考过程中遇到了困难;较大的滞后时间可能意味着学生在两次学习活动之间有较长时间的中断,这可能影响他们对先前知识的记忆。

Relation-Aware Self-Attention for Knowledge Tracing (RKT)

RKT模型概述
背景与创新点:
RKT 类似于SAKT(Self-Attentive Knowledge Tracing)和SAINT(Separated Self-Attentive Neural Knowledge Tracing),它使用Vaswani等人提出的缩放点积注意力机制,并通过多个注意力头学习注意力权重。
然而,RKT的独特之处在于它不仅依赖于注意力权重,还结合了关系系数(relation coefficients),这些系数分别来自于练习关系建模和遗忘行为建模。
主要组成部分:
练习关系建模(Exercise Relation Modeling)
文本信息利用:为了表示问题并估计一系列过去交互中问题之间的关系,RKT利用了问题的文本信息(例如,问题的文字描述)。这意味着模型不仅仅关注学生对问题的回答情况,还会分析问题本身的语义内容,从而更好地理解不同问题之间的关联性。
关系系数计算:基于问题的文本信息,RKT能够计算出问题之间的关系系数。这有助于模型识别出哪些问题是相似的或相关的,进而更准确地预测学生对新问题的表现。
遗忘行为建模(Forgetting Behavior Modeling)
指数衰减模型:类似于AKT(Attention-Based Knowledge Tracing),RKT考虑了学生随时间推移的遗忘行为。具体来说,它采用了指数衰减模型来量化这种遗忘效应,即随着时间的延长,学生对某个知识点的记忆会逐渐减弱。
结合遗忘因素:在计算注意力权重时,RKT将这种遗忘行为建模的结果作为额外的因素纳入考量。这样做的目的是使模型不仅能反映学生当前的知识掌握状态,还能考虑到他们可能会忘记之前学过的内容。
RKT的工作原理
输入处理:RKT接收一系列的学生-问题交互数据作为输入,其中包括学生对每个问题的回答情况以及问题本身的文本信息。
注意力权重学习:采用缩放点积注意力机制,通过多头注意力网络学习到不同交互之间的注意力权重。
关系系数整合:将从练习关系建模得到的关系系数与注意力权重相结合,以增强模型对问题之间复杂关系的理解。
遗忘行为调整:根据遗忘行为建模的结果调整最终的注意力权重,确保模型能够考虑到学生可能的遗忘情况。
总结
RKT 通过结合练习关系建模和遗忘行为建模,提供了一种更为全面的知识追踪方法。它不仅关注学生对问题的回答结果,还深入分析了问题之间的内在联系及学生随时间变化的记忆特性。

Convolutional Knowledge Tracing (CKT)

将注意力与一维卷积网络[59]相结合的CKT模型来预测正确答案的模型。

Collaborative Knowledge Tracing (CoKT)

利用协同过滤思想

协作知识追踪(CoKT)协作知识追踪(CoKT)[68]从推荐文献中借鉴了协作过滤的思想,以便在预测给定学生的答案概率时考虑同学的知识状态。作者的经验表明,融合状态内(从之前的回答历史中提取)和状态间(从同学的知识状态中提取)特征可以提高具有短回答历史的学生的答案预测性能。该模型通过在字符串编码的问题回答序列和项目嵌入向量之间部署BM25 [93]的相似度函数来估计同伴的相似度得分。类似地,学生之前的答案历史被嵌入,使用多头自我注意来表示状态内部,并与状态内部相结合来得到最终的答案预测

2.2.4 Graph-Based Knowledge Tracing Models.

Graph-based Knowledge Tracing (GKT)

据说是原版代码很坑,原版是tensorflow的,后改成了pytorch之后大数据集需要24G显卡...。

一般用:中科大的。https://github.com/bigdata-ustc

推荐资料:https://pykt.org/

EduKTM/examples/GKT at main · bigdata-ustc/EduKTM

简单说下思路:

提出了一种基于GNN的知识跟踪方法, 一种基于图的知识跟踪(GKT)。模型将知识追踪重新定义为GNN中的时间序列节点级分类问题。该公式基于三个假设:1)将作业知识分解为一定数量的知识概念。2) 学生有自己的时间知识状态,代表他们对课程概念的熟练程度。3) 作业知识是一个图,它影响学生知识状态的更新:如果一个学生正确或错误地回答了一个概念,那么他/她的知识状态不仅会受到回答概念的影响,而且还会影响到其他相关概念,这些概念在图中表示为相邻的节点。

②Graph-based Interaction Knowledge Tracing (GIKT)

利用问题和KCs之间的关系,以图表示来学习有用的嵌入。与GKT不同的是,GKT隐含地假设每个问题对应一个KC,而GIKT假设一个KC可能与许多问题相关,一个问题可能对应多个KC。

问题和KCs在图中的关系来聚合它们的嵌入,并将每个问题的嵌入以一个交互序列发送到RNN模型,以预测学生对下一个问题的答案。

③Structure-based Knowledge Tracing (SKT)

基于结构的知识追踪(SKT)由Tong等人[112]提出,旨在捕获KCs之间的多种关系,如相似性关系和前提关系。与GKT类似,SKT也假设每个问题对应一个KC。然而,SKT没有利用GKT中捕获的KCs之间的单一关系,而是利用了KCs之间的多种关系。此外,SKT还支持信息传播,以便在总结图数据时联合建模时间和空间效应。这两种图嵌入在每个时间步长都被组合起来,并输入一个循环模型来预测学生的正确答案

Pre-training Embeddings via Bipartite Graph (PEBG)

背景:
在知识追踪任务中,通常存在显性的习题-KC关系(即某个习题考查了哪些知识点),同时也存在隐性的习题相似性和KC相似性(即某些习题虽然表面上考查的知识点不同,但实际上可能涉及相似的概念或技能)。
为了更全面地捕捉这些关系,PEBG方法提出了一种新的策略,利用二分图结构来整合这些信息,并生成预训练的习题嵌入。
方法:
二分图表示:PEBG使用二分图来同时表示习题及其相关联的知识点、习题之间的相似性、知识点之间的相似性以及习题难度。在这样的图中,节点分为两类——一类是习题节点,另一类是知识点节点;边则代表习题与知识点之间的关联。
特征融合:通过定义好的二分图结构,PEBG方法融合了上述所有特征(包括习题-KC关系、习题相似性、KC相似性和习题难度),从而生成高质量的预训练习题嵌入。
实验验证:实验结果表明,使用PEBG方法得到的习题嵌入能够显著提升一些KT模型(如DKT)的性能。

2.2.5 Text-Aware Knowledge Tracing Models.

Exercise-Enhanced Recurrent Neural Network (EERNN)

        提出一种文本感知的KT模型,用于预测正确回答给定问题的概率。该模型使用一个双向LSTM模块从问题的文本中提取每个问题的表示(即一个向量),然后使用另一个LSTM模块将其与之前回答的问题的表示相结合,跟踪学生的知识状态。我们开发了两种EERNN的变体: EERNNM和EERNNA。EERNNM变体假设一系列相互作用满足马尔可夫性质,即对下一个问题的答案预测只取决于最新观察到的知识状态;因此,它只考虑最后一个隐藏状态。EERNNA的变体考虑了所有先前的知识状态,并通过一种注意机制将它们结合起来。

lstm

LSTM原理:

门控机制:
遗忘门(Forget Gate)
遗忘门的作用是决定细胞状态中哪些信息需要被保留,哪些信息需要被丢弃。它接收当前输入 和上一时刻的隐藏状态 作为输入,通过一个 Sigmoid 激活函数将其映射到 0 到 1 之间的值。其中,接近 0 的值表示对应的细胞状态信息将被遗忘,接近 1 的值表示信息将被保留。遗忘门的计算公式:


输入门(Input Gate)
输入门负责控制当前输入中有多少信息将被更新到细胞状态中。它同样接收 和 作为输入,通过 Sigmoid 函数计算出一个更新比例,同时通过一个 Tanh 激活函数对当前输入进行变换,然后将两者相乘得到需要更新到细胞状态中的信息。输入门的计算公式:


细胞状态更新
根据遗忘门和输入门的结果,对细胞状态进行更新。具体公式如下:


输出门(Output Gate)
输出门决定了细胞状态中的哪些信息将被输出作为当前时刻的隐藏状态。它接收 和 作为输入,通过 Sigmoid 函数计算出一个输出比例,然后将其与经过 Tanh 激活函数处理后的细胞状态相乘,得到当前时刻的隐藏状态 。输出门的计算公式如下:

②Exercise-Aware Knowledge Tracing (EKT)

  EKT扩展EERNN,在答案预测过程中合并多个KCs的信息,其中学生的知识状态由知识状态矩阵表示,而不是知识状态向量。具体来说,该模型使用一个记忆网络来量化在学生的一系列互动中,每个问题对学生对多个KCs的掌握程度的影响程度。

Adaptable Knowledge Tracing (AdaptKT)

  适应性知识跟踪(AdaptKT)Cheng等[21]解决了跨KT域的迁移学习问题,目的是将训练好的KT模型转移到源域上,以便在目标域上操作,同时保持其性能。他们提出的方法工作的文本数据问题通过学习问题嵌入使用深度自动编码器架构训练问题从两个领域,然后训练KT模型源域而正则化减少平均差异[110]知识状态在这两个领域。最后一层被随机重新初始化,同时保持早期层的权重冻结,以在目标域上进行训练。

but,论文无代码

ps:除了上述文本感知KT模型,其他类型的KT模型,如知识跟踪自我关注(RKT)[82]和层次图知识跟踪(HGKT)[111]也从问题的文本信息中提取特征,用于模型中学习问题表示。

2.2.6 Forgetting-Aware Knowledge Tracing Models.

①Deep Knowledge Tracing (DKT) + Forgetting

这段论文介绍了Nagatani等人对Deep Knowledge Tracing (DKT)模型的扩展,通过引入与序列相关的遗忘特征来增强模型的表现。该扩展旨在更准确地模拟学生的学习和遗忘行为,从而提高知识追踪的准确性。、

扩展后的DKT模型
背景与动机:
传统的知识追踪(KT)模型如DKT主要关注于根据学生的历史答题记录预测他们对新问题的回答正确性。
然而,这些模型通常忽略了学生在学习过程中可能会忘记之前学过的内容这一事实。为了更好地捕捉这种遗忘效应,Nagatani等人提出了对DKT模型的扩展。
新增的遗忘特征:
同一知识点回答次数:这是指到当前时间为止,学生针对具有相同知识点(KC)的问题回答了多少次。这个特征反映了学习效应,即随着练习次数的增加,学生对该知识点的掌握程度也会加深。
上次交互的时间间隔(针对同一KC):这是指自上次涉及相同知识点的问题互动以来经过的时间。这个特征反映了遗忘效应,即如果学生长时间没有复习某个知识点,他们可能对该知识点的记忆会减弱。
上次任意问题交互的时间间隔:这是指自上次任何问题互动以来经过的时间,无论这些问题是否涉及相同的KC。这也是一种反映遗忘效应的方式,但它是基于整体学习活动的时间间隔,而不是特定于某个知识点。
Knowledge Proficiency Tracing (KPT)

这是一种利用先验信息进行知识追踪的概率矩阵分解模型。具体来说,该模型考虑了两种先验: (1)问题先验:该模型使用由专家标记的q矩阵来描述问题和KCs之间的关系来生成问题表示;(2)学生先验:该模型通过联合应用两者来捕捉学生知识状态随时间的变化学习曲线理论和遗忘曲线理论。学习和遗忘因素的设计是基于学生当前的知识状态主要受两个潜在原因的影响: (a)做的练习越多,得到的相关知识状态越高;(b)时间越多,忘记的知识就越多。

HawkesKT

        使用点过程自适应地建模KT中的时间交叉效应的模型。它假设学生对KC的掌握程度不仅受到之前对同一KC问题的互动的影响,还受到对其他问题的互动(交叉效应)的影响。此外,该模型假设不同以往交互作用引起的交叉效应可能对不同KCs的掌握也有不同的时间演化。虽然交叉效应都随着时间的推移而衰减,但它们的衰减速率彼此不同,因为一些KCs可能比其他的更容易被忘记。

Deep Graph Memory Network (DGMN)

它将图神经网络与记忆相结合,用于遗忘感知知识追踪。该模型旨在建模在KC空间上的遗忘行为,这具有捕获问题之间的间接关系的优势。DGMN从知识状态内存构建一个动态图,以捕获kc之间的关系。给定一系列的相互作用,DGMN使用一种注意机制来将问题与其相关的KCs联系起来。然后,它计算序列上的遗忘特征,并使用门控机制融合问题嵌入、KC图嵌入和遗忘特征。门控输出用于预测正确回答下一个问题的概率

Learning Process-consistent Knowledge Tracing (LPKT)

旨在考虑学生在回答预测期间的学习增益。该模型通过将时间间隔内知识状态的变化纳入练习序列的嵌入表示中,来更好地捕捉学习过程中的进展和遗忘效应。

2.2.6 设计KT问题主要考虑的方面:

Knowledge state:

每个深度学习KT模型背后的一个基本假设是,一个知识状态是被考虑在单个KC还是多个KC上。基于学生对KCs的掌握水平对学生的知识状态进行建模是设计深度学习KT模型的一个重要任务。一般来说,从早期的工作,如DKT使用一个隐藏的状态模型知识状态在基于单个KC上,后来通过记忆增强KT模型(例如,DKVMN和SKVMN)和文本感知KT模型(例如,EKT)使用矩阵模型知识状态,基于多个KC,深度学习KT模型的趋势,表达动态捕捉知识状态表示在复杂的KC上。

KC dependencies

在一个KT任务中,假设每个问题都与单个KC或多个KC相关联,这通常作为一个先验知识提供,如q矩阵。深度学习KT模型面临的一个主要挑战是发现不同KCs之间的依赖关系,例如,一个KC需要其他几个KCs作为先决技能。为了解决这一挑战,在KT文献中探索了两项研究,包括: (1)使用注意机制来学习问题在所需的KCs方面的相互关系;(2)使用基于图的学习模型,如图神经网络,学习KCs之间的KCs或问题之间的关系。

Feature augmentation

特征增强:为了提高模型在KT任务上的性能,近年来,一些深度学习KT模型利用了其他特征,如与遗忘行为相关的时间特征和与问题文本相关的文本特征。一方面,增加额外的特性通常可以导致对学生学习表现的预测;另一方面,这些额外特性的增强取决于它们在数据库中的可用性,从而限制了它们在特定KT应用程序中的适用性。

总结:

3 KT 数据集
ASSISTments Datasets
小学数学练习 包括多选、文本题、开放式题

A09:123个技能,只有2/3有技能,一个问题最多四个技能

A12:大部分问题没有对应的技能,因此总体性能较低

A15:100个问题(题目id、答题学生id、答题正确率、日志)稀疏度很低 答题密集

ASSISTChall:102个技能 也是密集数据集

Statics2011
卡内基梅隆大学工程静力学课程,通常被预处理为129297次交互

Junyi
台湾电子学习平台junyi学院收集,722个题目 41个技能 数学

Synthetic
由Piech提出的模拟合成数据集,训练集和测试集都包含50个题目 1个技能 ,每个题目被回答4000次,不需要预处理。

KDDCup
2010年KDDcup教育数据挖掘挑战赛 对代数题的回答 来自卡内基公司的智能导学系统“The Cognitive Tutors”,包含3个子集

Algebra 2005-2006:每个题目被分为子问题 且和1个或多个技能相关

Algebra 2006-2007:类似05,该数据集时间戳存在问题,采用率低

Bridge to Algebra:493个技能。

EdNet
分层数据集由KT1-4表示不同类型的学生活动。KT1 188个技能 KT2 包含用户解决问题时的活动 KT3包含 学生学习方式(看讲座) KT4 最完整,包含各类信息包括购买 Riid TUTOR在线导学平台 致力于为国际交流练习英语 韩国

综合考虑
相同数据集不同数量的技能以及不同实验设置会影响报告结果。大部分数据集不提供人口统计信息,基于性别等其他类别预测无法实现。基准数据集一直在更新,公开数据集版本有助于获得一致可比的结果

4 KNOWLEDGE TRACING APPLICATIONS

5 KNOWLEDGE TRACING FUTURE RESEARCH DIRECTIONS

        然而,在描述问题的一些数据,如图像和数学方程,可以导致更丰富的嵌入表示,被提出的模型或可用的数据集忽略。这通过以下问题开辟了研究方向: (1)哪些信息数据可以用来提高KT模型的性能(2)在KT任务中如何表示这些数据?(3)如何为KT任务构建一个数据集,能够获得信息更丰富的嵌入表示学习?Liu等人[64]提出的运动感知知识跟踪(EKT)方法是最近尝试学习更丰富的嵌入表示,考虑到文本上下文和问题之间的关系。然而,多模态和领域特定的数据的表示,如数学方程和代码片段,在文献中仍未被探索,导致KT模型 低信息表示学习。融合来自多个特征空间的信号除了可以减轻数据[8]中的噪声外,还可以实现更好的表示学习。知识追踪中的自我监督学习。尽管监督学习在不同领域取得了进步,但它仍然有一个主要缺点:需要大量、高质量的标记数据进行训练。

        自监督学习在知识追踪中的应用。尽管监督学习已经在不同领域取得了进展,但它仍有一个主要缺点:训练时需要大量高质量的标注数据。另一方面,自监督学习(SSL)[76, 130]已被证明在多个领域(例如自然语言处理[28]和计算机视觉[36])中从未标注的数据中学习是有效的。SSL通常在一个称为预训练或前文本任务[76]的过程中采用相似性排序损失函数(如对比损失[119])来自动产生标签。这种预训练模型因此可以转移到下游任务中,使用有限的标注数据以监督学习的方式进行训练。因此,随着SSL的发展,可以为知识追踪(KT)领域做出进一步的贡献,例如通过创建预训练模型(如利用现有的预训练语言和计算机视觉模型)生成对KT有用的信息表示;并研究如何在冷启动场景或参与数据偏斜的情况下缓解学生活动训练数据有限的问题。

交互式知识追踪。大多数知识追踪(KT)模型采用的是通过观察问题回答的历史记录来估计学生的知识状态的被动方法;然而,由问题回答行为驱动的交互式方法仍有待探索。在冷启动场景中,交互式方法特别有用,因为这种情况下可以通过直接提出与不同知识点(KCs)相关的问题来揭示学生的知识状态。因此,另一个潜在的未来工作方向是开发优化的问题抽样策略,以增强KT模型在冷启动场景中的表现,但不限于此。考虑到其最大化奖励机制,强化学习(RL)[106]方法可能是一个自然的选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值