2017知乎看山杯总结(多标签文本分类)

最新推荐文章于 2025-09-10 10:43:36 发布

原创

最新推荐文章于 2025-09-10 10:43:36 发布 · 2.5w 阅读

37 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #TensorFlow

本文分享了参加2017年知乎机器学习挑战赛的经验，重点介绍了如何使用深度学习解决多标签文本分类问题，包括硬件准备、文件管理、模型保存、使用tensorboard、模型构造与调参等方面。

AI助手已提取文章相关产品：

关于比赛详情，请戳：2017 知乎看山杯机器学习挑战赛

代码：https://github.com/yongyehuang/zhihu-text-classification
基于：python 2.7， TensorFlow 1.2.1

任务描述：参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据，训练出对未标注数据自动标注的模型。

标注数据中包含 300 万个问题，每个问题有 1 个或多个标签，共计1999 个标签。每个标签对应知乎上的一个「话题」，话题之间存在父子关系，并通过父子关系组织成一张有向无环图（DAG）。

由于涉及到用户隐私及数据安全等问题，本次比赛不提供问题、话题描述的原始文本，而是使用字符编号及切词后的词语编号来表示文本信息。同时，鉴于词向量技术在自然语言处理领域的广泛应用，比赛还提供字符级别的 embedding 向量和词语级别的 embedding 向量，这些 embedding 向量利用知乎上的海量文本语料，使用 google word2vec 训练得到。

简单来说，这是一个多标签文本分类问题，基本上都是使用深度学习方法。

结果：在public board 上排名第五，private board 上排名第六。


图1 public board	图2 private board

我是从7月1号开始报名比赛，一直到8月16日早上结束，一共一个半月时间，除了开始三周有些其他事情，后面差不多一个月时间基本上都在做比赛。之前也做过一个文本的比赛（命名实体识别+分类），但是之前积累不够，有没有找到合适的队友，所以那个比赛最后成绩很差，后期基本上就放弃了。这次还是一个人参赛（一个人打比赛好累…）这一个半月确实很累，经常写代码写到半夜，然后一大早又起来看模型跑的结果，发现出错了赶紧改过来；跟同学抢机器；各种想法没提升；有一次把验证集写成训练集来用结果过拟合白白高兴了…和我一个实验室的还有两组同学参加了，他们分别拿了第一和第二…唉唉，自己还是太菜了。不过在这次比赛中，确实学习了好多，这里写下比赛中的一些经验，希望对大家特别是对于竞赛入门者能有所帮助

您可能感兴趣的与本文相关内容