项目介绍:
本项目旨在探索和实现一个基于LSTM的文本分类模型。通过构建和训练一个LSTM网络,我们将尝试解决一个具体的文本分类问题,并评估模型的性能。项目将涵盖数据预处理、模型设计、训练、评估以及结果分析等关键步骤,以期达到对LSTM在文本分类任务中应用的深入理解。
本篇博客是对唐宇迪ai的学习笔记。
欢迎大家加群一起讨论,群号:972252910。群二维码在本篇博客最底下。
源码地址:
环境介绍:
cuda:12.1
python:3.9.2
torch:2.1.0+cu121
TorchVision version: 0.16.0+cu121
文件介绍:
tain.txt训练集 text.txt测试集 dev.txt验证集
vocab.pkl 语料表 {字:ID}
embedding_SougouNews.npz embedding_Tencent.npz 映射表(embedding表) {ID:向量},.npz是一个numpy数组文件格式,是.npy的ZIP压缩文件
class.txt 类表表
预训练词嵌入:通过大规模文本语言分析内在的语义信息和上下