
文本分类(二)
Github优秀文本分类项目解析(基于深度学习方法)。
CoreJT
中科院自动化所在读直博生,感兴趣的研究方向:文本分类、情感分析、机器阅读理解与问答系统以及对话系统。
展开
-
文本分类(二) | (5) 训练、验证以及测试
完整项目最后,介绍一下模型的训练、验证以及测试流程。目录1. 训练2. 验证3. 测试1. 训练def train(config, model, train_iter, dev_iter, test_iter): start_time = time.time() model.train() #训练模式 optimizer = to...原创 2020-01-28 17:22:44 · 2638 阅读 · 1 评论 -
文本分类(二) | (4) 模型及其配置的定义
完整项目本篇博客,主要介绍各个模型的模块定义,包括模型本身的定义以及模型对应的配置(超参数)的定义,二者在一个模块文件中。目录1. FastText2. TextCNN3. TextRNN4. TextRCNN5. TextRNN_Atten6. DPCNN7. Transformer1. FastText配置类class Config...原创 2020-01-28 17:08:37 · 3619 阅读 · 0 评论 -
文本分类(二) | (3) 数据预处理
完整项目本篇博客主要介绍一下数据预处理,包括构建词典/字典,构建数据集和迭代器以及使用预训练词/字向量对词/字嵌入矩阵进行初始化。目录1. 构建词/字典2. 构建数据集和迭代器3. 初始化词/字嵌入矩阵4.构建数据集和迭代器(FastText)1. 构建词/字典def build_vocab(file_path, tokenizer, max_si...原创 2020-01-28 15:09:23 · 7547 阅读 · 10 评论 -
文本分类(二) | (2) 程序入口
完整项目run.py是整个项目的入口,它包含两部分,一是使用argparse工具,配置相关参数;二是整个项目的流程框架,各个模块/函数的调用。目录1. 参数配置2. 项目流程1. 参数配置#声明argparse对象 可附加说明parser = argparse.ArgumentParser(description='Chinese Text Classification...原创 2020-01-28 13:48:08 · 4219 阅读 · 7 评论 -
文本分类(二) | (1) 项目介绍
完整项目文本分类(二)专栏主要是对Github优秀文本分类项目的解析,该文本分类项目,主要基于深度学习模型,包括TextCNN、TextRNN、FastText、TextRCNN、BiLSTM_Attention、DPCNN、Transformer,使用PyTorch实现。目录1. 项目特点2. 数据集3. 项目组织结构4. 使用方式1. 项目特点相比于文本分类(一...原创 2020-01-28 11:54:48 · 4599 阅读 · 14 评论