目标是使用Doc2Vec和Logistic回归将消费者金融投诉分为12个预定义类
Doc2vec是一个NLP工具,用于将文档表示为向量,是word2vec方法的概括。
使用Scikit-Learn进行多类文本分类时使用相同的数据集,在本文中,我们将使用Gensim中的doc2vec技术按产品对投诉叙述进行分类。
- The Data
The goal is to classify consumer finance complaints into 12 pre-defined classes. The data can be downloaded from data.gov
import pandas as pd
import numpy as np
from tqdm import tqdm
tqdm