10、文本分类与音频分类探索

文本分类与音频分类探索

文本分类相关要点

在文本处理方面,之前我们探讨了一个涵盖编码和嵌入的文本处理管道,还使用了基于简单 LSTM 的神经网络进行分类,同时介绍了一些针对文本数据的数据增强策略。目前有很多值得实验的点:
1. 大小写敏感性 :在分词阶段,通常会将每条推文转换为小写,这是自然语言处理(NLP)中常见的做法,但会丢失推文中的潜在信息。例如,“Why is this NOT WORKING?” 比 “Why is this not working?” 更能体现负面情绪,但在转换为小写后,这种差异就被丢弃了。所以可以尝试在分词文本中保留大小写敏感性。
2. 停用词处理 :传统 NLP 方法通常会去除停用词,但深度学习技术有时在保留停用词的情况下表现更好。因为停用词能为模型提供更多的上下文信息,仅保留重要词汇的句子可能会丢失文本中的细微差别。
3. 嵌入向量大小 :可以尝试改变嵌入向量的大小。较大的向量可以捕捉更多关于所建模单词的信息,但会占用更多内存。可以从 100 维嵌入向量尝试到 1000 维,观察其对训练时间和准确率的影响。
4. LSTM 调整 :可以对 LSTM 进行多种调整,如增加 num_layers 以创建堆叠 LSTM,增加或减少层中的隐藏特征数量,或者将 bidirectional 设置为 true 以创建双向 LSTM。还可以尝试用 GRU 层替换整个 LSTM,观察是否训练更快、更准确。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值