目录
文本分类问题,需要我们根据每句的字符进行分类,但是有些赛题给出的数据是匿名化的,不能直接使用中文分词等操作。
因此,如果我们要对匿名字符进行建模,进而完成文本分类的过程,由于文本数据是一种非结构化数据,因此可能涉及到特征提取与分类模型两个部分,其思路大致如下:
1 TF-IDF + 机器学习分类器
直接使用TF-IDF对文本进行特征提取,并使用分类器进行分类,在分类器的选择上,可以使用SVM、LR、XGBoost
2 FastText
FastText是入门款的词向量,利用Facebook提供的FastText工具,可以快速构建出分类器
3 WordVec+深度学习分类器
WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或者BiLSTM(
本文探讨了NLP中文本分类的问题,重点介绍了四种方法:TF-IDF结合机器学习分类器,FastText,WordVec与深度学习,以及BERT词向量模型。针对匿名字符的建模和分类,作者提到了特征提取和分类模型的选择,如SVM、LR、XGBoost,以及深度学习结构TextCNN、TextRNN、BiLSTM。
订阅专栏 解锁全文
1509

被折叠的 条评论
为什么被折叠?



