目录
目的
根据Datawhale大佬们提供的baseline训练模型,并通过docker的方式提交到天池比赛,获得自己的分数。对于新手来说,并没有看起来那么轻松,特此记录踩坑历程。感谢老师们的指点!
背景
个人配置
- 操作系统:windows10专业版(Tipis:家庭版装docker会有区别)
- 显卡:RTX3070
- 环境:pytorch1.7.1(GPU版)+ CUDA11.1 + Pycharm + windows版Docker
赛题要求
- 赛事信息:天池->全球人工智能技术创新大赛【热身赛二】
- Datawhale提供的baseline(特别感谢~):地址
Tips:之后将基于该baseline教程,详细叙述我的配置历程。
本机跑通Baseline
pytorch配置
踩了许多坑的总结~
准备环节
git clone模型文件到本机,项目命名为tianchi-multi-task-nlp,运行环境为pytorch虚拟环境,编译器为Pycharm。
添加transformers和sklearn
pytorch虚拟环境中并没有这两项,我们需要使用pip安装一下。不过要注意一点,我们需要将这两个包安装到pytorch虚拟环境下,而不是直接在cmd中全局安装。
打开Anaconda->powershell prompt,我们通过powershell prompt进入pytorch虚拟环境。
conda activate <pytorch环境名称(自己命名)> #激活虚拟环境
pip install transformers #安装transformers
pip install sklearn #安装sklearn
安装结果如图:

数据文件及bert配置
下载中文预训练BERT模型bert-base-chinese,地址:https://huggingface.co/bert-base-chinese/tree/main

只需下载config.json、vocab.txt和pytorch_model.bin,把这三个文件放进tianchi-multi-task-nlp/bert_pretrain_model文件夹下。

下载比赛数据集,把三个数据集分别放进tianchi-multi-task-nlp/tianchi_datasets/数据集名字/下面:
- OCEMOTION/total.csv:

本文记录了一位新手如何在Windows 10专业版环境下,通过Docker提交天池比赛的BERT模型,包括环境配置、数据处理、模型训练和Docker部署的详细步骤,旨在帮助其他初学者避免踩坑。
最低0.47元/天 解锁文章
3610





