1 文本分类
是自然语言处理(NLP)领域里一项基本任务。而文本呢的长度过长对文本智能解析带来了巨大的挑战。
用传统的监督学习模型对一段文文本进行分类的基本过程:
一段原始文本→(数据预处理)→处理后的文本→(特征工程)→Features→(输入)→→(输出)→类别
注:特征工程过程是整个机器学习过程中最要的部分。特征决定了机器学习的上限,而机器学习算法只是逼近这个上限。
2 常用的机器学习算法
a.传统的监督学习算法:对数几率回归、支持向量机SVM、朴素贝叶斯、决策树、集成学习等
b.深度学习:cnn、rnn、attention模型等
3 “达观杯”文本智能处理挑战赛
3.1 引言
自然语言处理一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题。随着深度学习的热潮来临,有许多新方法来到了 NLP 领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。
3.2 比赛任务
此次比赛,达观数据提供了一批长文本数据和分类信息,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。
数据包含2个csv文件:
train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: 第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”级别上的表示,即词语相隔正文(word_seg);第四列是这篇文章的标注(class)。
注:每一个数字对应一个“字”,或“词”,或“标点符号”。“字”的编号与“词”的编号是独立的!