SOHU图文匹配竞赛-方案分享

最新推荐文章于 2024-10-04 23:35:52 发布

Will-Lin

最新推荐文章于 2024-10-04 23:35:52 发布

阅读量3.9k

点赞数

CC 4.0 BY-SA版权

分类专栏：计算机视觉机器学习文章标签：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wzmsltw/article/details/73330439

本文介绍了参加SOHU图文匹配竞赛的团队经验，分享了主要方案，包括文本编码、图像编码、模型训练和预测。团队采用余弦距离衡量相似度，文本编码使用tf-idf与PCA，图像编码使用VGGnet。决赛中，还引入OCR技术以提升匹配效果。其他方案包括推荐系统和不同的文本编码策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注：本文为原创文章，如需转载请先私信联系。

最近参加的sohu图文匹配竞赛在这周二在北京举办了决赛，虽然期末忙没去成，但也全程视频直播围观了比赛。我所在的团队(“中国国家跳水队”，排名如队名，一度严重跳水)获得了初赛第3, 复赛第9, 决赛第6的成绩，正好擦边获得了三等奖。参加这次比赛的初衷是作为机器学习课程的大作业，这两天写了课程报告，所以将报告内容修改了一下进行分享。

主要分为三个部分，分别为比赛背景介绍，团队主要方案介绍，其他方案介绍。其中最后一部分包含了一些其他队伍在决赛赛后分享时提到的思路。

比赛背景介绍

此部分主要内容摘自比赛官网，详细内容见比赛官网

主要任务

参赛队伍利用组委会给定的搜狐新闻文本内容和相应的新闻配图等数据集来训练模型（数据集规模为10万条新闻和10万张新闻配图）。比赛要求在给定新的新闻内容集合和新的图片集合之后（数据集规模为2万条新闻和2万张新闻配图），参赛队伍能为每一篇新闻找到匹配度最高的10张图片，并且给出相应的排序。在复赛时，训练数据集的规模提高到了125w。

测评方案

根据参赛队伍提供的答案，计算每条数据i的ndcg值ndcg（i），得分为 score=

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。