ATEC2018 NLP赛题总结

本文总结了ATEC2018金融大脑比赛中关于自然语言处理(NLP)的语义相似度赛题,包括题目背景、解决方案、模型效果及参赛收获。作者训练了多个NLP模型如Siamese、ESIM等,并探讨了模型融合、pytorch使用、学习率策略等技巧,以及未尝试的增强模型方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ATEC2018 NLP赛题总结

今年5月份报名了蚂蚁金服的比赛,有金融大脑和风险大脑两个赛题,金融大脑主要解决智能客服遇到的自然语言处理问题,对于两个语句,判断是否是同一个意思,帮助构建客服的专用问答库,比赛的评判标准是f1分数,这对于正负样本不平衡问题比准确率更好,风险大脑则是通过用户登录和交易信息判断此次交易是否存在风险,在网络安全形势严峻的今天,其重要意义不言而喻。

选了金融大脑赛题,意外进入了复赛,2个月时间的投入,最终拿到18名,稍微总结一下,先把想到的写出来,后面想到什么再完善。

题目简介

语句对主要来自蚂蚁花呗的客户提问,语句是否是同种意思的标注来自外包团队,据官方介绍,根据抽查结果,95%的标记是正确的。
举个例子,数据格式是句子id,两个句子,1个标签,初赛提供了10万个语句对,复赛50万。测评都是1万条。

id  sent1 sent2 label
17  我开通不了借呗 我要申请借呗  0
18  借呗还款了,额度未恢复 借呗还款后额度没有恢复还显示借款  1

我的方案

训练多个不同匹配的模型,使用blending融合,简单说来还是模型堆砌,根据前排分享,对模型进行一定的改造还是能够增强效果的。

效果简介

主要从网上搜罗了四个不同模型,分别是自定义Siamese网络、ESIM网络、Decomposable Attention和DSSM网络,又按字符级和词级分别训练,最后一次的单模型的训练后在验证集上效果如下表

model name 模型输出与标签相关性r 最优f1评分 取得最优f1评分的阈值
siamese char 0.553536380131115
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值