
自然语言处理
philpanic9
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
NLP实践项目五:基于GRU的古诗生成(pytorch实现)
直接看代码:github传送门数据集:古诗数据集1. 数据预处理:将古诗存为上图的格式,每行一首诗,便于使用torchtext读取。2. 模型定义 模型就是一个简单的GRU模型,3. 模型训练和测试 训练过程中如同翻译模型中的teaching forcing,输入是[<start>,x1,x2,...xn][<start>,x_1, x_2, ... x_n][<star原创 2020-06-20 23:03:45 · 3400 阅读 · 3 评论 -
NLP实践项目四:基于Seq2Seq(包含Attention)的机器翻译(pytorch实现)
直接看代码:数据集:随机生成如下形式的日期对,输入是人可以阅读的各种日期形式,输出为正规化的日期形式。参考吴恩达老师网易云深度学习课程作业5。输入输出monday march 7 19831983-03-079 may 19981998-05-0908 jul 20082008-07-089/10/701970-09-101. 数据预处理机器翻译任务需要在输出的句子前后添加一个标签做标志,通常在输出句子开头添加一个<start>标签,末尾原创 2020-06-17 23:50:57 · 2367 阅读 · 1 评论 -
NLP实践项目三:基于BiLSTM-CRF的实体识别(pytorch实现)
直接看代码:github传送门数据集:Conll20031. 数据预处理将txt中的文件读出然后将句子和对应的标签序列存入csv文件中,便于使用torchtext完成数据读取。2. 模型定义上图是BiLSTM的结构图,数据流向由下往上。命名实体识别是一个序列标注任务,也就是对于句子中的每一个单词都有一个对应的标签。对于每一个单词而言,对它的标签的预测其实也就是一个多分类任务,下面通过提问的方式解构这个模型。为什么需要BiLSTM ?:对于单词的多分类任务,最简单的处理方式就是在得到单词对应的词原创 2020-06-14 11:47:14 · 4019 阅读 · 6 评论 -
NLP实践项目二:基于RNN、CNN的文本多分类(pytorch实现)
直接看代码:github传送门数据集:Classify the sentiment of sentences from the Rotten Tomatoes dataset1. 数据预处理本项目实现了两种数据预处理方式,一种是使用pytorch提供的dataset和dataloader实现数据预处理,一种是直接使用torchtext(强烈推荐上手试试)。两种方法的实现过程大体都是一致的,分词、数值化(word --> id)、填充、封装。最后一步是为了在训练过程中直接从迭代器中取出可输入到网络原创 2020-06-13 11:10:02 · 5262 阅读 · 1 评论 -
NLP实践项目一:基于softmax regression的文本多分类
数据集:Classify the sentiment of sentences from the Rotten Tomatoes dataset特征表示:Bag-of-Word,N-gramBag-of-Word:词袋模型,根据语料建立词典vocab,词典中每个单词有一个index,M为词典的大小,将句子表示为一个M维向量,每一维的值对应该索引对应的单词在句子中出现与否或者出现的次数。这种特征表示不考虑单词出现的先后顺序,丢失了重要的语义信息。N-gram:相比于词袋模型,N-gram将N个单词联合原创 2020-06-07 21:16:19 · 2240 阅读 · 7 评论 -
《统计学习方法》之隐马尔可夫模型代码实现
隐马尔可夫模型是一种可用于序列标注问题的统计学习模型。核心如下图: 对于序列标注问题,单词序列是观测序列,单词对应的标签序列是隐藏序列,也就是说每一个单词都对应一个隐状态,产生句子的过程实际上是隐状态之间的状态转移。对于每个隐状态,产生各个单词的概率不同,例如词性标注问题中"动词"这个标签产生love...原创 2020-03-21 11:54:54 · 1730 阅读 · 1 评论 -
pytorch DataLoader处理不定长序列
本篇博客的目的是:将下图这样的输入(每个tensor表示一个句子,01为句子标签):转化为下图所示的输出(batch_size=2)元组的第一个元素为填充后的句子向量,第二个元素为句子长度,第三个元素为句子的label。为什么需要这样的处理? 如果需要使用RNN模型处理序列数据,肯定不能将变长的序列直接输入模型,所以需要在输入前对其进行填...原创 2020-02-05 14:05:13 · 7015 阅读 · 6 评论