Task4 基于深度学习的文本分类1

最新推荐文章于 2022-11-01 17:01:34 发布

原创最新推荐文章于 2022-11-01 17:01:34 发布 · 146 阅读

CC 4.0 BY-SA版权

本文介绍如何使用深度学习方法，特别是FastText，进行高效文本分类。FastText作为一种深度学习词向量表示方法，通过Embedding层将单词映射到稠密空间，并对句子中所有单词在Embedding空间中进行平均，实现快速分类。文章还提供了使用FastText进行文本分类的代码示例。

基于深度学习的文本分类

与传统机器学习不同，深度学习既提供特征提取功能，也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。

目标

学会fasttext 的使用和基础原理
学会使用验证集进行调参

回顾

上一章节我们了解了sklearn的文本分类方法但是我们发现sklearn 的方法消耗时间长而且没有考虑词语之间的关系只是进行统计

FastText

FastText是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。

所以FastText是一个三层的神经网络，输入层、隐含层和输出层。
而且在文本分类的任务上是优于TF-IDF的
FastText用单词的Embedding叠加获得的文档向量，将相似的句子分为一类
FastText学习到的Embedding空间维度比较低，可以快速进行训练

如果深度学习那么参考论文：
Bag of Tricks for Efficient Text Classification, https://arxiv.org/abs/1607.01759

分类模型

import pandas as pd
from sklearn.metrics import f1_score

# 转换为FastText需要的格式
train_df = pd.read_csv('../input/train_set.csv', sep='\t', nrows=15000)
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')

import fasttext
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2, 
                                  verbose=2, minCount=1, epoch=25, loss="hs")

val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))