2017知乎看山杯总结(多标签文本分类)

知乎机器学习挑战赛实战
本文分享了参加2017年知乎机器学习挑战赛的经验,重点介绍了如何使用深度学习解决多标签文本分类问题,包括硬件准备、文件管理、模型保存、使用tensorboard、模型构造与调参等方面。
AI助手已提取文章相关产品:

关于比赛详情,请戳:2017 知乎看山杯机器学习挑战赛

代码:https://github.com/yongyehuang/zhihu-text-classification
基于:python 2.7, TensorFlow 1.2.1

任务描述:参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型。

标注数据中包含 300 万个问题,每个问题有 1 个或多个标签,共计1999 个标签。每个标签对应知乎上的一个「话题」,话题之间存在父子关系,并通过父子关系组织成一张有向无环图(DAG)。

由于涉及到用户隐私及数据安全等问题,本次比赛不提供问题、话题描述的原始文本,而是使用字符编号及切词后的词语编号来表示文本信息。同时,鉴于词向量技术在自然语言处理领域的广泛应用,比赛还提供字符级别的 embedding 向量和词语级别的 embedding 向量,这些 embedding 向量利用知乎上的海量文本语料,使用 google word2vec 训练得到。

简单来说,这是一个多标签文本分类问题,基本上都是使用深度学习方法。

结果:在public board 上排名第五,private board 上排名第六。

图1 public board
图2 private board

我是从7月1号开始报名比赛,一直到8月16日早上结束,一共一个半月时间,除了开始三周有些其他事情,后面差不多一个月时间基本上都在做比赛。之前也做过一个文本的比赛(命名实体识别+分类),但是之前积累不够,有没有找到合适的队友,所以那个比赛最后成绩很差,后期基本上就放弃了。这次还是一个人参赛(一个人打比赛好累…)这一个半月确实很累,经常写代码写到半夜,然后一大早又起来看模型跑的结果,发现出错了赶紧改过来;跟同学抢机器;各种想法没提升;有一次把验证集写成训练集来用结果过拟合白白高兴了…和我一个实验室的还有两组同学参加了,他们分别拿了第一和第二…唉唉,自己还是太菜了。不过在这次比赛中,确实学习了好多,这里写下比赛中的一些经验,希望对大家特别是对于竞赛入门者能有所帮助

您可能感兴趣的与本文相关内容

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值