文本分类与音频分类探索
文本分类相关要点
在文本处理方面,之前我们探讨了一个涵盖编码和嵌入的文本处理管道,还使用了基于简单 LSTM 的神经网络进行分类,同时介绍了一些针对文本数据的数据增强策略。目前有很多值得实验的点:
1. 大小写敏感性 :在分词阶段,通常会将每条推文转换为小写,这是自然语言处理(NLP)中常见的做法,但会丢失推文中的潜在信息。例如,“Why is this NOT WORKING?” 比 “Why is this not working?” 更能体现负面情绪,但在转换为小写后,这种差异就被丢弃了。所以可以尝试在分词文本中保留大小写敏感性。
2. 停用词处理 :传统 NLP 方法通常会去除停用词,但深度学习技术有时在保留停用词的情况下表现更好。因为停用词能为模型提供更多的上下文信息,仅保留重要词汇的句子可能会丢失文本中的细微差别。
3. 嵌入向量大小 :可以尝试改变嵌入向量的大小。较大的向量可以捕捉更多关于所建模单词的信息,但会占用更多内存。可以从 100 维嵌入向量尝试到 1000 维,观察其对训练时间和准确率的影响。
4. LSTM 调整 :可以对 LSTM 进行多种调整,如增加 num_layers 以创建堆叠 LSTM,增加或减少层中的隐藏特征数量,或者将 bidirectional 设置为 true 以创建双向 LSTM。还可以尝试用 GRU 层替换整个 LSTM,观察是否训练更快、更准确。
超级会员免费看
订阅专栏 解锁全文
944

被折叠的 条评论
为什么被折叠?



