01 | NLP领域的RNN与GRU
2019年,一款国内少见的真人实拍互动影游《隐形守护者》上线Steam/Mac等多平台,其中有一句台词令自己印象深刻:“在理想主义者眼中,什么都是马尔科夫链。”
当时的自己精神一振,不明觉厉,后查阅资料,发现这里的马尔科夫链正是高等数学所学的Markov模型。最通俗地讲:以时间角度分析先后发生的一系列事件,则可以说时刻t事件的发生由t时刻之前的所有事件共同决定。
仔细想想,这是容易理解并接受的:比如早上起床去上课,陆续经历了【起床穿衣→洗漱→上厕所→准备食用早餐→出门去教室】。我们能否8点前准时出现在教室中,取决于早起后的每一个环节进展是否顺利,如果出门后发现忘记带手机折返,那么无疑会延后到达教室的时间。
人工智能领域中将上述理论称呼为“时间序列模型”,出于工程上实现的考虑,通常不是考察时刻t之前的所有事件,而是分析时刻t-1或时刻t-1、t-2时刻事件对时刻t事件的影响,通常称之为“一阶或二阶Markov链”。
类似的时间序列关系同样出现在自然语言领域(NLP)。如果主语是单数,则谓语可能是“is”;反之则可能是“are”。但是NLP的关联更加复杂,单纯的一阶或二阶Markov链无法刻画较长字符间的关联,如下例中,与问题最相关的“北京”反而“距离”更远。
我出生在北京,大学毕业后来美国攻读博士。毫无疑问,我最擅长的语言是(汉语/英语)。
为了解决上述问题,人们提出了RNN(循环神经网络),其特有的结构可以将特定时间节点的信息向后传递。
典型的神经网络通常包含输入层、隐藏层与输出层;RNN的改进是在输出层之外,新“搭建了一条通道”将当前的信息传递给下一个时刻,即:

RNN模型一度在NLP领域表现出强大的生机,然而为了更好地模型拟合效果,人们倾向

文章介绍了NLP中的RNN和GRU模型,尤其是它们在处理时间序列问题和自然语言中的应用,以及在古诗AI项目中的运用,包括数据预处理、词向量嵌入和模型训练。
最低0.47元/天 解锁文章
912

被折叠的 条评论
为什么被折叠?



