基于fasttext的新客服文本分类效果评估
具体步骤如下:
- 数据处理
- 模型搭建
- 效果评估
- 结论
第一部分数据处理包括:数据读取、数据标准化格式处理、训练集和验证集数据准备
数据读取
import pandas as pd
df = pd.read_csv('./input/分类打标文档_all.csv')[['标签一级', 'voice_txt']]
df.columns = ['labels', 'str']
数据标准化格式处理
fasttext模型训练时使用的标准数据分为两块 (标签加工+文本分词):
第一块的组成是“label”+“类别名称”,这里的类别名称可以是中文也可以是英文,标签其实可以填写多个,但是不推荐(模型效果差);
第二块是对文本部分,需完成分词操作,并使用空格分割;
第一块与第二块之间用 逗号’,'拼接,完成数据标准化格式处理。
标签加工
将标签加工为模型所需的固定“label”+“类别名称”格式
def create_label(x):
return '__label__' + str(x)
df['label_type'] = df['labels'].apply(lambda x: create_label(x)<