
达观杯文本分类比赛
达观杯文本分类比赛所用方法的介绍,比赛或刷榜的技巧。
CoreJT
中科院自动化所在读直博生,感兴趣的研究方向:文本分类、情感分析、机器阅读理解与问答系统以及对话系统。
展开
-
达观杯文本分类比赛 | (4) 多模型融合
由于是比赛,我们需要把效果尽可能的提升,所以可以采用一些集成学习算法,对各个模型的预测结果进一步压榨,进行多模型融合,得到最终的结果。目录1. Stacking2. HillClimbing1. Stacking之前的每个模型,包括机器学习模型和深度学习模型,都有在训练集上的预测结果(train_samples,classes)和测试集上的预测结果(test_sample...原创 2020-01-26 19:33:23 · 1319 阅读 · 0 评论 -
达观杯文本分类比赛 | (3) 单模型融合(深度学习模型)
接下里我们使用一些深度学习模型,深度学习模型会把机器学习模型的两个阶段联合起来进行end2end学习,即把特征表示和分类一起训练,最后一层进行分类,其余层对输入文本进行特征表示。我们主要使用了一些经典的深度学习模型,包括FastText、TextCNN、biLSTM、TextGRUCNN等模型,为了增加模型的多样性,每个模型提供了word-level和character-level两个版...原创 2020-01-26 19:09:18 · 1018 阅读 · 1 评论 -
达观杯文本分类比赛 | (2) 单模型融合(机器学习模型)
首先我们使用几个经典的机器学习模型,使用机器学习模型作文本分类,主要分为两个阶段:1)特征表示:将输入文本表示为特征向量,一般采用TF-IDF提取特征。可能会融入一些降维方法,降低特征向量的维度。2)分类器:将提取的特征向量输入分类器进行分类。单模型融合,就是对每个模型采用10折交叉验证,每个模型都会得到一个在训练集上的预测结果(train_samples,classes),和1...原创 2020-01-26 13:00:15 · 1034 阅读 · 1 评论 -
达观杯文本分类比赛 | (1) 比赛介绍
目录1. 竞赛信息2. 数据3. 评分标准1. 竞赛信息比赛网址自然语言处理一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题。随着深度学习的热潮来临,有许多新方法来到了 NLP 领域,给相关任务带来了更多优秀成果,也给大家带...原创 2020-01-26 10:58:06 · 1139 阅读 · 0 评论