应用:垃圾邮件分类、主题分类、情感分析
workflow:
https://developers.google.com/machine-learning/guides/text-classification/
model
- 使用字符级 ngram 的词袋模型很有效。不要低估词袋模型,它计算成本低且易于解释。
- RNN 很强大。但你也可以用 GloVe 这样的外部预训练嵌入套在 RNN 模型上。当然也可以用 word2vec 和 FastText 等其他常见嵌入。
- CNN 也可以应用于文本。CNN 的主要优势在于训练速度很快。此外,对 NLP 任务而言,CNN 从文本中提取局部特征的能力也很有趣。
- RNN 和 CNN 可以堆叠在一起,可以同时利用这两种结构。