注:本文为原创文章,如需转载请先私信联系。
最近参加的sohu图文匹配竞赛在这周二在北京举办了决赛,虽然期末忙没去成,但也全程视频直播围观了比赛。我所在的团队(“中国国家跳水队”,排名如队名,一度严重跳水)获得了初赛第3, 复赛第9, 决赛第6的成绩,正好擦边获得了三等奖。参加这次比赛的初衷是作为机器学习课程的大作业,这两天写了课程报告,所以将报告内容修改了一下进行分享。
主要分为三个部分,分别为比赛背景介绍,团队主要方案介绍,其他方案介绍。其中最后一部分包含了一些其他队伍在决赛赛后分享时提到的思路。
比赛背景介绍
此部分主要内容摘自比赛官网,详细内容见比赛官网
主要任务
参赛队伍利用组委会给定的搜狐新闻文本内容和相应的新闻配图等数据集来训练模型(数据集规模为10万条新闻和10万张新闻配图)。比赛要求在给定新的新闻内容集合和新的图片集合之后(数据集规模为2万条新闻和2万张新闻配图),参赛队伍能为每一篇新闻找到匹配度最高的10张图片,并且给出相应的排序。在复赛时,训练数据集的规模提高到了125w。
测评方案
根据参赛队伍提供的答案,计算每条数据i的ndcg值ndcg(i),得分为 score=