- 博客(7)
- 收藏
- 关注
原创 NLP入门学习历程——从encoder和decoder实现seq2seq的训练
首先简单的介绍一下seq2seq,一开始版主也觉得这玩意有点抽象,做了一下发现好像实现起来还是比较简单点,seq2seq的结构说白了就是一个编码器encoder,一个解码器decoder,encoder的状态输出作为decoder的状态输入,最终decoder输出一个经过全连接的结果矩阵,感觉就是RNN的promax版本。而且其实中间去掉一步对于encoder输出层的一个处理,那就是完完全全的RNN了。
2025-06-29 17:00:28
479
原创 NLP入门学习历程——基于LSTM的词预测
首先还是看一下LSTM是什么。LSTM长短期记忆网络,结构和RNN有点像,和后面的GRU比就有点复杂了,在waimai的数据集上训练了一个预测下一个词的模型。话虽然这么讲,但是LSTM还算是比较经典的网络,所以在学习的过程中还是去做了下这个东西的基础实现,核心框架的理解也更深一点了,虽然最后训练代码没有跑通......
2025-06-25 12:47:49
269
1
原创 NLP入门学习历程——手搓Word2Vector
学晕了摆了两天,终于还是搓完了,今天把之前落下的基于LSTM的词预测做完了,收获还是蛮多的,但是晕也是真的晕......想起来还有个这个没写,就过来补一下,顺便回忆一下之前搓word2vec的一些思路和过程,当是一次复习了。核心实现思路:预先处理好数据集,构建(中心词,上下文)的正训练对,以及(中心词,random)的负训练对,计算正负训练对的得分矩阵,将正负训练样本分别打上标签(0/1),然后计算损失函数,进行反向传播更新参数。//表示构造一个 由k个随机数组成的负样本。
2025-06-21 19:38:28
337
原创 NLP入门学习历程——基于Word2Vec词嵌入模型和TF-IDF加权平均的情感分类任务
再遍历该句子中的每一个词和词在词表中的索引,然后根据该句子word2vec的输出矩阵中找到索引对应位置的词的词向量,使用词向量去乘对应位置的词权重向量的值,得到加权后的的词向量。比如在遍历第 i 个句子,那么就找tfidf矩阵中的第 i 行,输出为向量a,然后遍历该句子的每一个词,在词表中找出对应词的位置 j ,那么再去word2vec矩阵中找第 j 行的向量b,在去用这个向量乘a[j],就是加权值,然后将句子的加权词向量相加后去除以向量a的所有元素之和。分为输入层,隐层,输出层。
2025-06-16 14:54:17
495
原创 NLP入门学习历程——基于TF-IDF的简单的情感分类
前言:虽然标题写的是情感分析,其实就是一个简单的分类器的任务,还是比较基础的二分类器。当然这里的分类器是直接调用的sklearn的库,要是自己写的话还要麻烦一点点,但是版主毕竟还是打基础阶段,这里就先不搞这种稍微复杂一点点的东西了,从下一个项目开始应该就是使用pipeline了。首先需要简单了解一下 TF-IDF是什么,首先这玩意分为两部份,一部份是另一部份是是计算的是:词 t 在文档 d 中的频率通常形式:其中=word 在 text 中的出现频率,
2025-06-14 14:43:34
266
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅