卷积神经网络在文本情感分类中的应用案例
1. 引言
为了在涉及本章所述多种技术和框架的实际数据分析问题中获得实践经验,我们将使用文本情感分类。具体而言,我们将利用从 Twitter 上抓取的公共美国航空公司情感数据集,将推文分类为积极、消极或中性。消极推文还可以进一步按原因分类。我们将评估不同深度学习技术在情感分类中的有效性,这些技术涉及使用各种输入表示的卷积神经网络(CNN)。在本案例研究中,分类仅基于推文的文本,而不基于任何推文元数据。我们将探索文本数据的各种表示形式,如从数据中训练的词嵌入、预训练的词嵌入和字符嵌入。我们没有对每种方法进行大量的超参数优化,以展示在不进一步微调的情况下它能达到的最佳效果。
2. 软件工具和库
我们将使用以下主要的开源工具和库进行案例研究:
- Keras (www.keras.io):一个用 Python 编写的高级深度学习 API,为各种深度学习后端(如 TensorFlow、CNTK 和 Theano)提供通用接口。代码可以在 CPU 和 GPU 上无缝运行。所有 CNN 实验都使用 Keras API 进行。
- TensorFlow (https://www.tensorflow.org/):一个流行的开源机器学习和深度学习库。我们使用 TensorFlow 作为深度学习库,但使用 Keras API 作为实验的基本 API。
- Pandas (https://pandas.pydata.org/):一个流行的开源数据结构和数据分析实现。我们将使用它进行数据探索和一些基本处理。
超级会员免费看
订阅专栏 解锁全文
4444

被折叠的 条评论
为什么被折叠?



