记录自己第一个Kaggle银牌

最新推荐文章于 2025-09-25 15:16:08 发布

原创

最新推荐文章于 2025-09-25 15:16:08 发布 · 1.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

本文分享了在U.S.PatentPhrase to Phrase Matching比赛中获得银牌的经验，重点介绍了数据处理方法、DeBERTa等模型的应用及融合策略。

Kaggle比赛银牌记录

0、比赛内容背景
1、数据处理
2、模型/结构
3、其他方法
4、总结

从六月以来，一直在华为实习，没抽出时间写一写文章，最近很开心的是刚结束的Kaggle比赛U.S. Patent Phrase to Phrase Matching中取得了银牌，很感谢队友给予的大力帮助，在这里简述一下具体的做法，以作回顾。

在这里插入图片描述

0、比赛内容背景

背景：以美国专利库为主要数据集，匹配专利文档中的关键词短语来提取相关信息

类型：深度学习/NLP
数据：成对的短语（anchor和target），在0到1的范围内评估它们的相似性，训练集36473对短语，训练集大约有12000对短语
评估标准：皮尔逊相关系数

1、数据处理

数据处理方面一些常规的处理方法，例如转换成小写、去掉前后的空格等就不再赘述。
主要说一些数据集的处理，本次数据集主要处理：

讨论区引入了CPC文件，该文件中每个专利代码的标题作为title text。
对anchor和context进行groupby，获得聚合后的targets列表。
在2的基础上生成文本 anchor[SEP]target[SEP]title[SEP]gp_targets。
使用groupKfold将数据拆分成训练集和验证集，能够有效地避免数据泄露导致的线上线下分数差别过大问题。

2、模型/结构

模型使用的是Deber

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Facouse

关注关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

本科生晋升GM记录： Kaggle比赛进阶技巧分享

迈微AI研习社 · 号主

05-26

1536

入坑kaggle到拿到GM的三阶段以及进阶技巧，排名60/125547的Gary讲解，十分全面。

#14 【Kaggle】 Drawing with LLMs 金牌方案赏析

m0_47867419的博客

06-01

211

学习比赛第一名的解法

1 条评论您还未登录，请先登录后发表或查看评论

Kaggle平台5个月2块银牌晋级Competition Expert历程

shajiayu1的博客

07-09

1485

目录赛前学习经历第一个kaggle赛-CV分类赛第二个kaggle赛-CV分割赛赛前学习经历你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。 第一个kaggle赛-CV分类赛赛题介绍比赛结果心理历程前排方案比赛总结比赛不是为了创造模型，未必是模型的问题第二个kaggle赛-CV分割赛赛题介绍比赛结果心理历程前排方案比赛总结 ...

Kaggle: Google Quest Q&A Labeling 首战银牌方法总结+心得

Jay_Tang的博客

04-04

1399

fesfeee

一文告诉你Kaggle竞赛是什么以及为什么要参加？（含学习资料）

最新发布

2503_90237586的博客

09-25

1036

Kaggle竞赛平台提供了多种类型的竞赛，以适应不同水平和兴趣的参与者。这些不同类型的比赛为参赛者提供了广泛的学习和竞争机会，无论是初学者还是经验丰富的数据科学家都能在Kaggle找到适合自己的挑战。以下是Kaggle比赛主要类型：Kaggle上最主要的比赛类型。这些通常是由公司、组织甚至政府赞助的，奖金池最大，但竞争最激烈，含金量最高。Featured比赛有deadline，过了deadline排名就显示在主页。而非featured的比赛，有可能过一段时间排行榜上的排名就不见了。

kaggle近三年NLP比赛top方案汇总及新赛推荐

学姐带你玩AI的博客

09-13

2588

NLP的赛题任务主要有文本分类、情感分析、关系抽取、文本匹配、阅读理解、问答系统等，自Google开发的NLP处理模型BERT被广泛应用后，目前解决NLP任务的首选方案就是深度学习方法（textCNN、LSTM、GRU、BiLSTM、Attention等），至于用哪种方法，得要看具体的比赛要求。kaggle上NLP相关的比赛还是比较少的，我这次就整理了，有缺漏欢迎大家补充，金牌方案也全部分享出来了。整理好的比赛baseline以及开源代码合集文末直接领取。

留学申请时，Kaggle 银牌比校内科研经历更 “硬” 吗？

2501_91798322的博客

07-16

1643

Kaggle 银牌与校内科研并非对立，而是互补 —— 前者是国际实战的 “能力快照”，后者是学术深度的 “成长轨迹”。明确申请目标：授课型项目重实战，研究型项目重理论；放大个人优势：双非学生用 Kaggle 打破偏见，顶尖院校学生用校内科研展现学术高度；构建能力闭环：最好的背景是 “实战发现问题 + 科研解决问题”，让两者形成逻辑自洽的能力证明。如果你正在规划背景提升，不妨先问自己：“目标院校的项目更看重‘解决现有问题的能力’，还是‘创造新问题的潜力’？” 答案自然会指引你选择更适合的路径。

第一次参加Kaggle拿银总结

TURING.DT

05-19

1万+

转载：http://scarletpan.github.io/summary-of-get-a-silver-medal-in-kaggle/ 在这篇博客开始之前，我必须感谢@Prof. Cai给我提供服务器资源，@fenixlin学长从他自身经验出发耐心地为我解答一些困惑，素未谋面的@dnc1994学长的一篇非常优秀的博文帮助入门，以及广大Kaggler的无私分享，我确实在Kaggle举行

Kaggle: SIIM-ACR Pneumothorax Segmentation 比赛记录（银牌）Top 5%

aift的专栏

03-20

1291

文章目录记事 SIIM是19年暑假的一个比赛了，当时拿了银牌，这篇博客是赛后自己做的总结和笔记。现在分享出来。记事随着 Kaggle: SIIM-ACR Pneumothorax Segmentation 接近尾声，我感觉有必要写一篇 blog 来记录一下这两个月的比赛经历，顺便总结一下经验。刚开始的时候想着这不过是一场普通CV类的比赛而已，肝一肝就能上金牌。但现实狠狠地打了我的脸。最初三天...

kaggle竞赛之Shopee比赛经验与感受

Echooo的博客

05-15

2213

kaggle竞赛之Shopee比赛经验与感受1. 比赛内容和规则1.1 比赛内容1.2 比赛规则2. 算法思路3. 经验总结本文主要记录自己在第一次参加kaggle比赛时踩过的坑以及一些经验体会，希望能够对大家有些帮助。第一次参赛虽然只拿到了铜牌，但是也比较满意了。 1. 比赛内容和规则本章简要介绍shopee比赛内容和规则，能够让新手快速了解kaggle竞赛的大致流程。 1.1 比赛内容 Shopee竞赛是一项具有奖金的kaggle竞赛，前三名能够获得奖金，前1%的队伍能获得金牌，前1% ~ 5%的

Kaggle证书

02-12

Kaggle证书

【kaggle】鲸鱼海豚分类银牌baseline

学姐带你玩AI的博客

11-17

988

作者：Zeta来源：投稿编辑：学姐最早在知乎上看到的kaggle比赛解析就三年前的座头鲸分类比赛

Kaggle Competition : U.S. Patent Phrase to Phrase Matching

目标：NLP算法工程师

04-06

1519

Kaggle Competition : U.S. Patent Phrase to Phrase Matching 描述：你想从与专利发明相关的巨量文本数据集中抽取信息吗？现在就有一个机会。美国专利和商标局提供了一个最大的科学宝库，通过其开放数据门户网站向全世界提供技术和商业信息。专利是一种知识产权授予的形式，以换取公开披露新的和有用的发明。由于专利在授予前要经过严格的审查程序，而且由于美国的创新历史跨越了两个世纪和1100万项专利，美国专利档案是数据量、质量和多样性的罕见组合。 “The USPT

Kaggle入门指南（Kaggle竞赛）

热门推荐

Dontla的博客

11-02

3万+

Kaggle 的核心之一就是竞赛。在这里，用户可以找到来自各个行业的挑战，参与者需要根据给定的数据集构建模型，并在排行榜上竞争。竞赛的主题涵盖了从图像识别到自然语言处理等多个领域。Kaggle 是数据科学领域的重要平台，提供了丰富的学习与实践机会。从注册、数据集的使用，到参与竞赛与分享经验，Kaggle 帮助用户不断提高技能。在此过程中，不断学习和探索新知识，将是获得成功的关键。

一块kaggle金牌的冲击有多大？顺利拿下各大Offer

Python金融量化

12-20

564

如果以股票投资来形容，那么，选择打kaggle比赛绝对是入股不亏，稳赚不赔。尤其是对于正在学习或者想要留学申请：DS/BA/AA/CS/金融/经济/金工/生物信息/医学工程/公共卫生…等方向的同学来说，kaggle不仅能帮助你强化数据分析能力，也能协助你提升专业知识。无需门槛，不限专业，不限时间和阶段，任何人都可以从零开始准备一场Kaggle比赛，提升数据分析能力，获得项目经验。为了帮助你更好地利...

kaggle奖牌发放体系(转)

微电子学与固体电子学-俞驰

08-20

1万+

kaggle的评价体系 kaggle的用户评价体系是基于三个维度的：竞赛、代码以及社区参与。根据这三个维度把kaggle的用户分成了5个等级： Novice ：初始等级，只要注册就算 Contributor ：添加资料信息，并且进行了各种指定的动作即可。如上两个等级没有考虑到用户的比赛成绩和社区声望。 Expert ：获得两枚竞赛铜牌；5枚代码铜牌；以及50枚讨论铜牌 Master ：获得一枚竞赛...

[project]CCF大数据与计算智能大赛-小样本数据分类任务

sinat_41506268的博客

04-03

1827

CCF大数据与计算智能大赛（CCF Big Data & Computing Intelligence Contest，简称CCF BDCI）由中国计算机学会于2013年创办，是大数据与人工智能领域的算法、应用和系统大型挑战赛事。2022年，是第十届CCF BDCI。本赛题为大赛赛题之一，由智慧芽公司联合举办。本赛题为专利文本分类比赛。智慧芽作为国际领先的知识产权SaaS平台，根据用户的搜索习惯等因素，制定了一套新的专利分类体系。

保研夏令营中，Kaggle 比赛能替代论文发表吗？

2501_91798322的博客

07-16

1188

在保研这场 “隐形的军备竞赛” 中，Kaggle 比赛与论文发表常被视为提升背景的两大 “核武器”。前者是国际赛事的实战认证，后者是学术能力的权威背书，二者能否互相替代？作为深耕 AI 教育规划多年的从业者，结合 10 所顶尖院校招生官访谈与 50 + 学员真实案例，我将从竞争力本质、适用场景、突围策略三方面拆解核心逻辑，助你精准定位保研筹码。

Kaggle免费课程-Pandas精品微课(小白友好)

weixin_50127008的博客

10-14

939

Kaggle免费课程-Pandas精品微课(小白友好)

kaggle比赛银牌含金量

03-22

用户提到的引用中，引用[3]提到Kaggle的亮点是命题与创新发散的结合，这可能是其含金量的一个因素。另外，引用[4]也提到了平台成绩的企业认可度和对学习、求职的帮助，这些都是用户关心的点。接下来，我需要确定...