从六月以来,一直在华为实习,没抽出时间写一写文章,最近很开心的是刚结束的Kaggle比赛U.S. Patent Phrase to Phrase Matching中取得了银牌,很感谢队友给予的大力帮助,在这里简述一下具体的做法,以作回顾。

0、比赛内容背景
背景:以美国专利库为主要数据集,匹配专利文档中的关键词短语来提取相关信息
- 类型:深度学习/NLP
- 数据:成对的短语(anchor和target),在0到1的范围内评估它们的相似性,训练集36473对短语,训练集大约有12000对短语
- 评估标准:皮尔逊相关系数
1、数据处理
数据处理方面一些常规的处理方法,例如转换成小写、去掉前后的空格等就不再赘述。
主要说一些数据集的处理,本次数据集主要处理:
- 讨论区引入了CPC文件,该文件中每个专利代码的标题作为title text。
- 对anchor和context进行groupby,获得聚合后的targets列表。
- 在2的基础上生成文本 anchor[SEP]target[SEP]title[SEP]gp_targets。
- 使用groupKfold将数据拆分成训练集和验证集,能够有效地避免数据泄露导致的线上线下分数差别过大问题。
2、模型/结构
模型使用的是Deber

本文分享了在U.S.PatentPhrase to Phrase Matching比赛中获得银牌的经验,重点介绍了数据处理方法、DeBERTa等模型的应用及融合策略。
最低0.47元/天 解锁文章
1536

被折叠的 条评论
为什么被折叠?



