代码复现——Exercise-Aware Knowledge Tracing for Student Performance Prediction——1、数据预处理

该博客介绍了如何复现一篇使用Word2vec进行词向量预训练,然后利用双向LSTM进行文本生成的论文。首先,通过word2vec训练得到词向量;接着,基于训练好的词向量,构建文本生成模型,采用双向LSTM和max-pooling提取中间层特征;最后,提取隐藏层状态并进行最大池化操作,将文本转化为固定维度的向量表示。整个过程旨在理解和实践模型细节。

由于科研要求,本小白需要这篇论文的代码,但是由于大量搜索未果,于是本小白打算复现一下。

本文主要讲解模型细节,详细代码见GitHub

通过阅读论文和查阅讲解,对论文有所了解。

首先是练习嵌入,分为以下几步

1. word2vec(这篇讲解只讲原理不讲推导,清晰明了,这位作者还写了一篇关于word2vec的实战训练,并且提供了数据集),word2vec将练习ei中每个单词w转化为预训练的单词向量。
在这里插入图片描述


2、文本生成(文本生成主要参考了这篇文章),为什么说第二步是文本生成呢?因为论文中并没有明确说明双向LSTM的Label的什么。所以本人猜测单词w1对应的label就是单词w2,w2对应的label是w3,以此类推。如果是这样,那么就和文本生成非常像了。
在这里插入图片描述


3、如何提取中间层(隐藏层)和如何使用max-pooling,把二维矩阵转化为向量。我们需要提取出中间层的信息,并进行max-pooling。

在这里插入图片描述


1、word2vec部分代码:
### 2.2. Word2vec 训练

# 用生成器的方式读取文件里的句子
# 适合读取大容量文件,而不用加载到内存
class MySentences(object):
    def __init__(self, fname):
        self.fname = fname

    def __iter__(self):
        for line in open(self.fname, 'r'):
            yield line.split()


# 模型训练函数并获取文字向量
def w2vTrain(Config):
    sentences = MySentences(Config.poetry_file)
    w2v_model = word2vec.Word2Vec(sentences,
                                  min_count=Config.MIN_COUNT,
                                  workers=Config.CPU_NUM,
                                  vector_size=Config.VEC_SIZE,
                                  window=Config.CONTEXT_WINDOW
                                  )
    w2v_model.save(Config.ModelDir + Config.model_output)
    # print(
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值