
赛事
文章平均质量分 97
赛事记录
神洛华
这个作者很懒,什么都没留下…
展开
-
lightGBM实战
文章目录一、使用LGBMClassifier对iris进行训练1.1 使用lgb.LGBMClassifier1.1.2使用pickle进行保存模型,然后加载预测1.1.3 使用txt和json保存模型并加载1.2使用原生的API进行模型训练和预测1.2.2 使用txt/json格式保存模型1.2.3 使用pickle进行保存模型三、任务3 分类、回归和排序任务3.1使用 make_classification生成二分类数据进行训练3.1.1 sklearn接口3.1.2 原生train接口3.2使用 ma原创 2022-01-15 03:57:07 · 6992 阅读 · 2 评论 -
2022-kaggle-nlp赛事:Feedback Prize - English Language Learning
最近kaggle上的nlp比赛,完整代码已公开,直接fork下来跑就行!!!原创 2022-11-14 21:19:43 · 3617 阅读 · 0 评论 -
yolov5官网教程&kaggle海星目标检测赛&paddle钢铁缺陷检测赛(VOC格式)
一是用yolov5s V6.1版本训练PASCAL VOC2012数据集,二是稍微翻译了下yolov5官网教程Train Custom Data。亲测通过,中间各种报错、配置文件、改路径都写得很清楚。原创 2022-08-11 00:59:17 · 3952 阅读 · 4 评论 -
Kaggle——海星目标检测比赛
赛事地址:https://www.kaggle.com/c/tensorflow-great-barrier-reef 赛题目标:建立一个根据珊瑚礁水下视频训练的目标检测模型,实时准确地识别海星。澳大利亚美丽无比的大堡礁是世界上最大的珊瑚礁,有1500种鱼类、400种珊瑚、130种鲨鱼、鳐鱼和大量其他海洋生物。不幸的是,珊瑚礁正面临威胁,部分原因是一种特殊海星的数量过多,这种海星是吃珊瑚的刺海星冠(简称COTS)。原创 2022-10-02 00:58:01 · 5466 阅读 · 0 评论 -
华为2022校园赛——车道渲染
比赛详情和baseline见:《如何打一个CV比赛V2.0》。本次比赛我是在colab上跑的,用的是datawhale采样数据集。下载比赛数据集:一、数据预处理1.1 自定义dataset1.2 划分数据集1.3 数据增强目前试验了锐化、Mixup、Augmix、AutoAgmentation,以及入网尺寸,发现入网尺寸为transforms.Resize((352,176)),然后 transforms.CenterCrop([320,160])效果比resize(224,22原创 2022-09-27 23:21:59 · 776 阅读 · 0 评论 -
天池 入门赛-新闻文本分类-单个bert模型分数0.961
文章目录一、HF模型预训练方式1.加载数据集:2.训练tokenizer2.2 分词器的训练参数如下:2.3 分词器保存和加载3.从头开始训练语言模型3.2 初始化模型3.3 创建训练集3.4 初始化 Trainer并训练5. 检查训练好的模型一、HF模型预训练方式使用HF主页的tokenizer和MLM包,进行trainer训练1.加载数据集:选择多语言多语料数据集OSCAR corpus# in this notebook we'll only get one of the files (th原创 2021-10-02 01:19:21 · 4134 阅读 · 1 评论 -
天池-新闻文本分类-task1机器学习算法(未完待续)
一、文本挖掘原理1 分词的基本原理 现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库。假如有一个句子:“小明来到荔湾区”,我们期望语料库统计后分词的结果是:“小明/来到/荔湾/区”,而不是“小明/来到/荔/湾区”。那么如何做到这一点呢? 从统计的角度,我们期望"小明/来到/荔湾/区"这个分词后句子出现的概率要比“小明/来到/荔/湾区”大。如果用数学的语言来说说,如果有一个句子SSS,它有m种分词选项如下:A11A12...A1n1A_{11}A_{12}...A_{1n_1}A1原创 2021-10-23 16:25:45 · 1388 阅读 · 0 评论 -
天池-新闻文本分类-task2 fasttext
FastText:快速的文本分类器一、word2vec参考文档《word2vec原理和gensim实现》1.1 word2vec为什么 不用现成的DNN模型最主要的问题是DNN模型的这个处理过程非常耗时。我们的词汇表一般在百万级别以上,从隐藏层到输出的softmax层的计算量很大,因为要计算所有词的softmax概率,再去找概率最大的值。解决办法有两个:霍夫曼树和负采样。对于从输入层到隐藏层的映射,没有采取神经网络的线性变换加激活函数的方法,而是采用简单的对所有输入词向量求和并取平均的方法。输入原创 2021-10-24 23:25:25 · 1642 阅读 · 0 评论 -
CLUENER 细粒度命名实体识别,附完整代码
CLUENER 细粒度命名实体识别一、任务说明:最开始是参考知乎文章《用BERT做NER?教你用PyTorch轻松入门Roberta!》,github项目地址:《hemingkx/CLUENER2020》任务介绍:本任务是中文语言理解测评基准(CLUE)任务之一:《CLUE Fine-Grain NER》。数据来源:本数据是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS.平台github任务详情:《CLUENER 细粒原创 2021-11-07 21:08:57 · 5108 阅读 · 0 评论