Datawhale NLP实践-文本分类 Task01&Task02

该文探讨了在天池热身赛中针对数据不均衡和多任务模型的优化技术,包括修改loss计算、调整模型结构、使用attention层、数据清洗、文本增强、预训练模型使用、学习率调整、梯度累计策略等。此外,还提及了比赛中数据不均衡处理的策略和官方梳理的内容,这些方法和技术对于提升模型性能至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

比赛和项目相关信息:

天池热身赛比赛网址
datawhale项目介绍

Task01

模型配置等问题
之前做实验基本都已进行

Docker的基本使用及原理理解

docker是什么:

(Docker 公司的口号:Build,Ship,and Run Any App,Anywhere)

推荐阅读-本质原因:什么是docker?(docker-自动化运维-提供标准化)

通俗理解docker来自知乎-同问题下,
@刘允鹏和@木头龙的回答都十分好

Task02 模型改进和代码解析

代码baseline解释来自同组

来自项目本身的改进建议:

  1. 修改 calculate_loss.py 改变loss的计算方式,从平衡子任务难度以及各子任务类别样本不均匀入手;
  2. 修改 net.py 改变模型的结构,加入attention层,或者其他层;
  3. 使用 cleanlab 等工具对训练文本进行清洗;
  4. 做文本数据增强,或者在预训练时候用其他数据集pretrain;
  5. 对训练好的模型再在完整数据集(包括验证集和训练集)上用小的学习率训练一个epoch;
  6. 调整bathSize和a_step,变更梯度累计的程度,当前是batchSize=16,a_step=16;
  7. 用 chinese-roberta-wwm-ext 作为预训练模型

这样的改进更像是技术上的改进,像是比赛策略,而不是偏向模型本身的改进。
当然,多任务的模型调整和改进也是很重要的部分。

比赛本身的官方梳理

比较有意思的一个话题和群里也在讨论的便是,数据不均衡下的一些策略,这涉及到一些技巧,也和改善结果有一定的关系。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值