基于深度学习的文本分类
与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。
目标
学会fasttext 的使用和基础原理
学会使用验证集进行调参
回顾
上一章节我们了解了sklearn的文本分类方法 但是我们发现sklearn 的方法消耗时间长 而且没有考虑词语之间的关系 只是进行统计
FastText
FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。
所以FastText是一个三层的神经网络,输入层、隐含层和输出层。
而且在文本分类的任务上是优于TF-IDF的
FastText用单词的Embedding叠加获得的文档向量,将相似的句子分为一类
FastText学习到的Embedding空间维度比较低,可以快速进行训练
如果深度学习那么参考论文:
Bag of Tricks for Efficient Text Classification, https://arxiv.org/abs/1607.01759
分类模型
import pandas as pd
from sklearn.metrics import f1_score
# 转换为FastText需要的格式
train_df = pd.read_csv('../input/train_set.csv', sep='\t', nrows=15000)
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')
import fasttext
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2,
verbose=2, minCount=1, epoch=25, loss="hs")
val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))
本文介绍如何使用深度学习方法,特别是FastText,进行高效文本分类。FastText作为一种深度学习词向量表示方法,通过Embedding层将单词映射到稠密空间,并对句子中所有单词在Embedding空间中进行平均,实现快速分类。文章还提供了使用FastText进行文本分类的代码示例。
37万+

被折叠的 条评论
为什么被折叠?



