【Kaggle】一：【文本分类】“达观杯”文本智能处理挑战赛

原创

已于 2023-02-17 17:24:28 修改 · 937 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #linux

于 2021-09-07 18:20:06 首次发布

本文介绍了参加‘达观杯’文本智能处理挑战赛的相关内容，包括赛题任务是利用NLP技术进行文本分类，数据集下载链接及密码，数据集结构和处理方法，以及评分标准。文章强调了数据处理的重要性，特别是词频和词前后关系，并说明了比赛的AB榜评分机制。

文章目录

一、赛题网址

“达观杯”文本智能处理挑战赛

二、赛题任务

达观数据提供了一批长文本数据和分类信息，结合当下最先进的NLP和人工智能技术，深入分析文本内在结构和语义信息，构建文本分类模型，实现精准分类。

三、数据集下载

https://pan.baidu.com/s/13IMDPMz0rf8kM1JAea53uQ
password: y6m4

四、数据集介绍

train_set.csv
此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引（id），第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；第四列是这篇文章的标注（class）。注：每一个数字对应一个“字”，或“词”，或“标点符号”。“字”的编号与“词”的编号是独立的！

test_set.csv
此数据用于测试。数据格式同train_set.csv，但不包含class。注：test_set与train_test中文章id的编号是独立的。友情提示：请不要尝试用excel打开这些文件！由于一篇文章太长，excel可能无法完整地读入某一行！

五、数据集处理

NLP数据处理：① 词频 ② 词前后关系

六、评分标准

采用各个品类F1指标的算术平均值，它是Precision 和 Recall 的调和平均数。
在这里插入图片描述
其中，Pi是表示第i个种类对应的Precision， Ri是表示第i个种类对应Recall。 AB榜的划分方式和比例：【1】评分采用AB榜形式，提交文件必须包含测试集中所有用户的预测值。排行榜显示A榜成绩，竞赛结束后2小时切换成B榜单。B榜成绩以选定的两次提交或者默认的最后两次提交的最高分为准，最终比赛成绩以B榜单为准。【2】此题目的AB榜是随机划分，A榜数据占50%，B榜使用全量测试集，即占100%。

七、代码实现

'''导入所需要的包'''
import pandas as pd
# 导入特征提取库
from

最低0.47元/天解锁文章