基于人工智能的自动标题生成与学生成绩预测
自动标题生成模型介绍
在自动生成标题的过程中,解码时自动创建标题句子会出现一个问题,即句子中会重复出现很多单词。为了解决这个问题,我们引入了一系列相关模型。
基础模型 - Base - Seq2Seq 模型
Base - Seq2Seq 模型结合了 Seq2Seq 和注意力机制。然而,该模型自动生成的标题存在单词重复的问题。例如,对于输入文本 “I prefer the spectrum coconut oils because they are flavorless they have more potential uses”,生成的自动标题为 “Good stuff”,效果不太理想,与原文标题区别不大。
语言模型 - Smooth - Seq2Seq 模型
为了解决 Base - Seq2Seq 模型中自动生成标题的单词重复问题,我们使用了基于词级别的语言模型进行错误纠正,即 Smooth - Seq2Seq 模型。语言模型是一种能够掌握自然语言中单词序列分布显著特征的函数或算法,它允许根据前面的单词对下一个单词进行概率预测。常用的是基于 Ngram 的方法,其基于马尔可夫假设,即序列中特定单词出现的概率仅取决于前 n - 1 个单词的出现情况。
我们从额外语料库中训练语言模型,使用 LSTM 网络进行训练。训练完成后,该语言模型用于对生成的自动标题进行错误纠正。具体操作如下:
1. 检索自动标题中重复单词的索引列表。
2. 依次移除这些重复单词,使用公式 Score = P(w2|w1) + P(w3|w1w2) + … + P(wn|w1…wn - 1)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



