
AI比赛教程
文章平均质量分 93
分享各类AI比赛(阿里云天池、科大讯飞等)前几名队伍的成功经验,包括NLP、CV、语音、时序预测、信息安全等方向。其中也包括自己取得的阿里云第一名的经验分享。也包括打比赛提分的一些实用tricks,从而更好的帮助新手入门数据科学竞赛。
优惠券已抵扣
余额抵扣
还需支付
¥89.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
herosunly
985院校硕士毕业,现担任算法工程师一职,获得优快云博客之星第一名,热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委,编写微软OpenAI考试认证指导手册。曾获得多项AI顶级比赛的Top名次,其中包括阿里云天池比赛第一名,科大讯飞分类挑战赛第一名,CCF信息分类比赛比赛第二名,开放原子分类比赛二等奖,CCF家族分类第四名,科大讯飞阿尔茨海默症预测挑战赛第四名,科大讯飞事件抽取挑战赛第七名。在技术创新领域拥有多项授权发明。曾辅导多位非科班出身的同学成功进入算法行业就业。希望和大家一起成长进步。
展开
-
AI比赛经验分享 - 总目录
总目录1. 不同方向经验分享1.1 NLP1.2 CV1.3 语音1.4 结构化数据1.5 时序预测1.6 网络安全方向1.7 推荐与广告1.8 风控2. 工具和提分技巧分享3. 个人比赛体会原创 2020-12-11 13:30:50 · 122144 阅读 · 73 评论 -
pandas并发处理数据神器Pandarallel的实战代码
最近和订阅专栏的几位同学一起复盘分析参加的AI比赛,大家都谈到了能否提升程序的运行效率,否则就很容易受到某一个步骤的影响,导致整个数据处理流程都显得很慢。由于Python默认情况下是单线程的,所以要突破瓶颈,就需要并发处理数据。根据调研和实战发现,Pandarallel是最适合的方法。1. 不推荐的方案multiprocessing2. Pandarallel实战代码 2.1 安装方法 2.2 实战代码一 2.3 实战代码二 2.4 注意事项原创 2023-01-18 17:20:26 · 17792 阅读 · 8 评论 -
结构化数据特征构建神器openfe的实战代码
最近订阅专栏的几位同学一起参加了AI比赛,该比赛的数据形式是结构化的。随着特征和模型的不断迭代优化,达到了一个难以跨越的瓶颈。希望我能够给出一些有效的方法,帮助他们提高成绩。在个人的调研和体验后,向他们推荐了结构化数据特征构建神器openfe,最终也帮助他们提升了十来名的成绩,个人也感到十分的欣慰。特意写此博客,希望能够帮助更多的同学。文章目录1. 安装2. 实战例子一3. 实战例子二原创 2023-01-06 17:33:08 · 33556 阅读 · 3 评论 -
时间序列统计特征的详细解析
根据对已有时间序列比赛的统计研究,发现数据规模不大的比赛任务中,依然使用的是特征工程+梯度提升树模型。而且特征工程依然是重中之重。所以特意换了一些时间对特征工程进行了详细的总结。主要包括两大类,一类是常用的(大家都使用的)基本特征,还有一类是Top选手使用的高级特征。为了方便比赛选手学习,将其概念和代码均进行了总结,具体如下文介绍。目录1. 基本特征2. 高级特征2.1 峰值因子、裕度因子、波形因子、脉冲因子、重复值的若干个特征2.2 傅里叶变换的若干个特征2.2.1 傅里叶系数2.2.2原创 2022-05-15 08:00:00 · 57983 阅读 · 5 评论 -
自然语言处理任务详解(万文多图)
1. 基础自然语言任务1.1 语法任务1.1.1 语法任务:以词为基本单元1.1.2 语法任务:以句子为基本单元1.1.2.1 成分句法分析1.1.2.2 依存句法分析1.1.2.3 组合范畴语法1.2 语义任务1.2.1 语义任务:以词为基本单元1.2.2 语义任务:以句子为基本单元1.2.3 语义任务:两个句子为基本单元1.2.4 语义任务:以篇章为基本单元2. 信息抽取任务2.1 NER(命名实体识别)2.2 Anaphora Resolution(指代消解)....原创 2022-05-12 19:45:00 · 22054 阅读 · 2 评论 -
自然语言处理发展的四大阶段
1. 基于规则的方法2. 统计机器学习方法3. 浅层神经网络4. 深层神经网络(预训练模型)原创 2022-05-10 11:37:04 · 58543 阅读 · 6 评论 -
阿里云安全恶意程序检测冠军经验分享(万字长文)
最近收到不少收费用户的私信,想要学习我是如何拿到阿里云安全恶意程第一名的优异成绩的经验。大家渴望学习的热情感染了我,所以特意整理了一篇详尽的经验分享博客,希望能对大家有所帮助。文章目录1. 任务描述2. 数据统计分析3. 方案设计3.1 单模型设计3.1.1 传统机器学习3.1.1.1 特征工程3.1.1.2 分类器3.1.2 深度学习3.1.2.1 深度学习模型设计3.1.2.2 深度学习模型训练3.2 模型融合3.3 线上部署4. 总结1. 任务描述 将windows可执行程序在动态沙箱原创 2021-02-04 19:54:33 · 160239 阅读 · 127 评论 -
花样滑冰选手骨骼点动作识别方案总结
1. 赛题介绍2. 解题思路3. 前期探索与尝试4. 本赛题方法4.1 算法架构4.2 数据处理4.3 模型结构与创新4.3.1 Baseline4.3.2 模型创新 ResNeXtSE4.3.3 模型创新 ResNetDSE4.4 训练策略4.5 测试策略4.6 模型比较5. 应用与展望...原创 2022-04-28 21:15:00 · 63942 阅读 · 0 评论 -
问题匹配鲁棒性评测方案总结
1. 赛题描述与分析1.1 赛题描述1.2 赛题分析2. 方案介绍2.1 整体方案2.2 模型方案一2.3 模型方案二2.4 模型方案三2.5 后处理2.6 创新点总结2.7 其他尝试2.7.1 其他尝试一2.7.2 其他尝试二3. 总结原创 2022-04-13 07:00:00 · 2802 阅读 · 4 评论 -
个贷违约预测方案总结
1. 赛题分析2. 解决方案2.1 方案架构2.2 数据预处理2.2.1 特征处理2.2.2 缺失值处理2.2.3 异常值处理2.3 数据探索与分析2.3.1 双表数据探索分析-数据2.3.2 双表数据探索分析-特征2.3.3 双表数据分析小结2.4 特征分析与构建2.4.1 特征重要度分析2.4.2 构建重要特征2.5 数据过滤2.6 特征工程2.6.1 目标编码2.6.2 交叉特征2.7 算法模型2.8 提分要点3. 思考与总结...原创 2022-03-25 07:45:00 · 77683 阅读 · 8 评论 -
AI安全技术总结与展望
1. AI安全的分类2. AI安全应用3. AI安全面临的威胁4. AI安全事件5. AI安全公司本文将从AI安全分类、AI安全应用、AI安全面临的威胁、AI安全事件、AI安全公司等几个角度分别进行阐述。原创 2022-03-14 13:17:51 · 36850 阅读 · 6 评论 -
基于BERT的大模型容量解决方案总结
1. 赛题背景1.1 趋势一:深度学习模型规模日益增长1.2 趋势二:大模型训练代价难以负担,成本高居不下2. 比赛任务3. 解决方案3.1 模型显存分析3.2 优化1:调整计算顺序3.3 优化2:层间融合3.4 优化3∶层内内存复用( Memory-Reuse Intra Layer )4. 分布式训练方案4.1 数据并行(Data Parallel)4.2 层内模型并行(Tensor Model Parallel)4.3 层间模型并行(Layer Model Parallel)原创 2022-03-11 08:30:00 · 55766 阅读 · 2 评论 -
基于机器学习的恶意样本静态检测的代码详解
文章目录1. 类与类之间的关系2. 每个类的详细分析2.1 ByteHistogram2.2 ByteEntropyHistogram2.3 SectionInfo2.4 ImportsInfo2.5 ExportsInfo2.6 GeneralFileInfo2.7 HeaderFileInfo2.8 StringExtractor2.9 DataDirectories2.10 PEFeatureExtractor 源代码地址为:https://github.com/elastic/ember,其中核原创 2022-03-07 15:13:15 · 7543 阅读 · 4 评论 -
AI 赋能安全技术总结与展望
伴随着人工智能技术的蓬勃发展,当前网络空间已经迈进到人工智能时代。人工智能对网络空间产生了变革性的影响,如何使用人工智能技术构建更可靠的网络安全系统就变得至关重要。具体来说,人工智能赋能安全,是指基于海量数据的基础上利用人工智能来自动识别或响应潜在网络威胁的工具和技术。原创 2022-02-22 17:04:07 · 18959 阅读 · 3 评论 -
人工智能之自然语言处理技术总结与展望
1. 背景2. 预训练语言模型3. Prompt Learning4. 数据增强5. 总结原创 2022-03-01 08:50:45 · 28310 阅读 · 4 评论 -
HTTP报文数据检测与分类方案总结
今天给大家讲解的内容为HTTP报文数据检测与分类方案总结,希望对大家有所帮助。文章目录1. 背景介绍2. 机器学习方案 2.1 方案概览 2.2 特征构建 2.3 特征筛选 2.4 模型构建 2.5 实验效果3. 深度学习方案 3.1 神经网络架构 3.2 预处理 3.3 embedding 3.4 其他层 3.5 训练技巧 3.6 实验效果原创 2023-03-18 20:00:32 · 11668 阅读 · 47 评论 -
恶意软件家族分类 单模型方案总结
1. 方案一1.1 数据探索1.1.1 ASM文件探索1.1.2 PE文件探索1.2 数据降维-AutoEncoder1.3 关键词抽取1.4 模型构建1.5 总结2. 方案二2.1 特征工程2.1.1 单特征提取2.1.1.1 Ember特征2.1.1.2 TF-IDF特征2.1.1.3 Asm2Vec特征2.1.2 特征融合2.1.3 特征融合2.1.4 特征选择2.2 模型构建2.2.1 加权软投票2.2.1.1 权重计算2.1.1.2 软投票2.2.2 多模原创 2022-02-25 16:23:55 · 86221 阅读 · 2 评论 -
恶意软件家族分类 模型集成方案总结
1. 方案一1.1 数据分析1.1.1 样本家族数量分布1.1.2 壳分析1.1.3 分析总结1.2 特征处理1.2.1 特征选择1.2.2 恶意软件灰度图特征1.2.3 字节直方图特征1.2.4 字节直方图特征代码1.2.5 熵直方图特征1.2.5.1 熵直方图特征详细讲解与代码1.2.6 字符串序列特征1.2.7 opcode序列特征1.3 模型融合1.3.1 stacking集成1.3.2 模型融合1.4 参考文献2. 方案二2.1 赛题分析2.2 数据探索.原创 2022-01-25 12:48:14 · 35991 阅读 · 0 评论 -
特征选择方法概述
1. Low Variance Filter2. Forward Feature selection3. Backward Feature Elimination1. Low Variance Filter 该方法简单来说就是删除低方差的特征。如下表所示,其中holiday、weather等列方差为0:原创 2022-01-26 08:00:00 · 16004 阅读 · 6 评论 -
系统认证风险预测方案总结
1. 算法方案解析1.1 题目理解1.2 数据探索1.3 特征构造1.3.1 原始特征1.3.2 时间特征2.3.3 统计交叉特征2.3.4 特征构造-词嵌入特征2.4 模型搭建2.5 模型融合2.6 上分点及亮点小结3. 后续优化思路4. 总结...原创 2022-01-24 08:00:00 · 35377 阅读 · 2 评论 -
UEBA的用户上网异常行为分析方案总结
1. 赛题背景2. 算法方案整体流程3. 特征分析与选择3.1 数据量基本描述3.2 类别特征编码3.3 移除均匀分布变量3.4 移除取值过多的干扰变量3.5 最终变量4. 模型构建4.1 算法原理4.2 孤立森林算法效果4.3 全局异常值模型建立4.4 用户内部异常值模型建立4.5 部门内部异常值模型建立5. 模型应用效果评估5.1 赛题评估指标5.2 模型集成效果对比......原创 2022-01-18 22:12:53 · 20479 阅读 · 14 评论 -
基于深度学习的小样本分类识别方案总结
1. 方案一1.1 算法方案解析1.1.1 赛题理解1.1.2 模型选择:尽量使用与数据匹配的SOTA模型1.1.3 TIM模型介绍1.1.4 TIM模型-训练1.1.5 TIM模型-推理1.1.6 改进思路考虑1.1.7 基于预训练模型的小样本分类1.2 下阶段优化思路2. 方案二2.1 算法方案解析2.1.1 赛题理解2.1.2 数据分析2.1.3 算法思路2.1.4 数据预处理2.1.5 损失函数2.1.6 其他Tricks2.2 总结2.3 展望3. 方案三原创 2022-01-17 08:00:00 · 77099 阅读 · 0 评论 -
蛋白质结构预测方案总结
1. 方案一1.1 赛题分析1.2 算法方案介绍1.2.1 Transformer模型1.2.2 Amino acid - One-Hot Encoding1.2.3 Amino acid - Embedding1.2.4 标签输出层的设计1.2.5 加深加大1.2.6 实验结果1.3 优化思路2. 方案二2.1 算法方案解析2.1.1 问题解析2.1.2 问题背景2.1.3 解决方案介绍2.1.4 特征提取2.1.5 建模过程2.1.6 最终模型框架2.2 下阶段优化思原创 2022-01-12 13:13:43 · 16058 阅读 · 2 评论 -
基于用户画像的商品推荐方案总结
1. 方案一1.1 赛题方案解析1.1.1 赛题介绍1.1.2 解题思路1.1.3 数据探索性分析1.1.4 CatBoost分析1.1.5 Fasttext分析1.1.6 数据分析小结1.1.7 数据预处理1.1.8 文本特征构造1.1.9 算法模型1.1.10 模型训练1.1.11 模型融合1.2 模型结果1.3 总结与思考2. 方案二2.1 算法方案解析2.1.1 方案架构图2.1.2 模型实现细节2.1.3 数据增强2.1.4 训练策略2.1.5 伪标签2原创 2021-12-17 17:14:36 · 23184 阅读 · 2 评论 -
新冠肺炎声音诊断方案总结
1. 方案一1.1 赛题简介1.2 算法方案解析1.2.1 问题分析1.2.2 降维可视化1.2.3 模型训练1.3 优化思路2. 方案二2.1 算法方案解析2.1.1 赛题简介2.1.2 数据统计2.1.3 去静音2.1.4 数据增强2.1.5 频谱分析2.1.6 特征提取2.1.7 模型构造2.1.8 其它设置2.2 总结2.3 优化思路3. 方案三3.1 赛题背景3.2 算法方案解析3.2.1 数据集分析与处理3.2.2 模型选择3.2.3 模型介绍.原创 2021-12-17 13:08:51 · 11980 阅读 · 2 评论 -
高分子塑料桶贴画外观检测方案总结
1. 方案一1.1 赛题介绍1.2 算法方案1.2.1 算法概述1.2.2 预处理1.2.3 关键像素定位1.2.4 后处理1.3 总结2. 方案二2.1 赛题简介2.2 算法方案2.2.1 整体架构2.2.2 关键点定位2.2.3 后处理2.3 总结3. 方案三3.1 算法方案解析3.1.1 赛题分析3.1.2 分类器选择与训练3.1.3 特征提取3.1.4 回归器选择与训练3.2 总结3.3 后续优化3.4 代码链接.........原创 2021-12-15 16:35:51 · 10770 阅读 · 0 评论 -
猪只盘点方案总结
1. 方案一1.1 算法方案解析1.1.1 数据噪声1.1.2 数据预处理1.1.3 数据增强1.1.4 模型训练与改进1.1.5 模型训练trick1.2 改进与创新1.3 优化思路2. 方案二2.1 赛题目标2.2 赛题挑战2.3 算法设计2.3.1 模型选择2.3.2 模型泛化2.3.3 模型优化2.3.4 模型训练2.4 结果展示2.5 方案亮点2.6 优化思路3. 方案三3.1 赛题分析3.2 算法设计3.2.1 模型选择3.2.2 数据增强...原创 2021-12-14 11:25:17 · 16295 阅读 · 0 评论 -
柑橘病虫害识别方案总结
1. 方案一1.1 赛题背景1.2 数据分析1.3 模型设计1.3.1 模型具体方案1.3.2 模型设计1.4 实验结果1.5 总结与展望2. 方案二2.1 赛题介绍2.2 数据分析2.3 算法方案解析2.3.1 检测模型2.3.2 提升策略2.4 优化思路3. 方案三3.1 数据分析3.1.1 数据说明3.2 技术展示3.2.1 数据输入端3.2.2 模型结构端3.2.3 上下文信息3.2.4 训练优化端3.2.5 创新性分析3.3 算法及系统思考.....原创 2021-12-11 11:21:55 · 19979 阅读 · 4 评论 -
领域迁移机器翻译方案总结
1. 方案一1.1 算法方案1.1.1 比赛任务介绍1.1.2 文本预处理1.1.2.1 文本预处理–分词1.1.2.2 文本预处理–数据清理1.1.3 算法方案概述1.1.4 跨语言相似句检索1.1.5 跨语言对齐模型-训练1.1.6 跨语言对齐算法1.1.6.1 Sentence-level 跨语言对齐1.1.6.2 Token-level 跨语言对齐1.1.7 跨语言对齐模型-检索1.1.8 跨语言对齐模型模型-结果示例1.1.9 融合口语翻译记忆的Transformer模原创 2021-11-29 13:18:56 · 47436 阅读 · 4 评论 -
非标准化疾病诉求的简单分诊方案总结
1. 方案一1.1 算法方案解析1.1.1 赛题描述1.1.2 评价指标1.1.3 数据分析1.2 算法模型1.2.1 模型架构1.2.2 Finetune1.3 实验结果1.4 模型优化1.4.1 主流模型压缩方法1.4.2 模型蒸馏1.4.3 ONNX Runtime加速1.5 总结2. 方案二2.1 算法方案解析2.1.1 赛题解析2.1.2 赛题难点2.1.3 数据分析2.1.4 文本处理2.2 模型2.2.1 预训练模型2.2.2 训练优化......原创 2021-11-24 16:40:11 · 52271 阅读 · 2 评论 -
试题标签预测方案总结
1. 方案一1.1 算法方案解析1.1.1 赛题分析1.1.2 模型框架1.1.3 初赛数据1.1.4 联合预测1.1.5 训练技巧1.1.6 总结1.2 优化思路2. 方案二2.1 算法方案解析2.1.1 任务背景2.1.2 数据清洗2.1.3 数据分析2.1.4 模型分析2.1.5 数据增强2.1.6 K近邻匹配2.1.7 难度类别优化2.1.8 其他尝试2.2 优化思路3. 方案三3.1 算法方案解析3.1.1 赛题描述3.1.2 数据处理3.1.3 .原创 2021-11-18 12:34:08 · 21151 阅读 · 4 评论 -
医疗实体及关系识别方案总结
1. 方案一1.1 方案解析1.1.1 赛题分析1.1.2 方案选择1.1.3 数据统计分析1.1.4 方案框架1.2 优化思路1.2.1 待优化点1.2.2 可尝试思路2. 方案二2.1 方案解析2.1.1 赛题解析2.1.2 模型设计2.1.3 模型训练技巧2.2 总结与思考3. 方案三3.1 方案解析3.1.1 赛题分析3.1.2 基本思路3.1.3 模型架构3.1.4 loss计算3.1.5 训练技巧3.1.6 总结3.2 后续优化...........原创 2021-11-11 17:38:42 · 19775 阅读 · 7 评论 -
基于脑电的情绪识别方案总结
1. 方案一1.1 算法方案解析1.1.1 数据处理1.1.2 模型设计思路1.1.3 模型设计1.1.4 结果1.2 优化思路2. 方案二2.1 任务介绍2.2 方案2.2.1 数据预处理2.2.2 深度学习架构2.2.2.1 编码器2.2.2.2 特征提取器2.2.2.3 AMSoftmax2.3 实验结果2.4 展望3. 第三名3.1 算法方案解析3.1.1 算法设计思路3.1.2 数据预处理3.1.3 卷积网络3.1.4 Transformer3.1.5原创 2021-11-03 15:34:21 · 43819 阅读 · 2 评论 -
车内贵重物品检测方案总结
1. 方案一1.1 赛题剖析1.1.1 赛题难点:Intra-Domain Imbalance1.1.2 赛题难点:Inter-Domain Imbalance1.1.3 赛题难点:Overfit1.1.4 赛题难点:Small Object1.2 算法主体1.2.1 Anchor Base1.2.2 CBNet1.2.3 Swin Transformer1.2.4 Global Context1.2.5 Anchor Free1.2.6 decouple解耦设计1.2.7 ...原创 2021-11-01 14:46:41 · 42144 阅读 · 4 评论 -
阿里安全SQL注入检测 前五名队伍分享
1. 第一名 Waterdrop1.1 团队介绍1.2 算法方案解析1.2.1 样本分析1.2.2 问题求解1.2.3 数据处理1.2.4 监督学习与自训练1.2.5 模型结构2. 第二名 StanTheMan2.1 团队介绍2.2 算法方案解析2.2.1 赛题介绍2.2.2 赛题理解2.2.3 解题思路2.2.4 S1 数据解码2.2.5 S1 数据解码2.2.6 S2基于N-gram思想建立黑白名单2.2.7 S3 基于HMM思想挖掘攻击和正常模式原创 2021-12-23 11:11:46 · 45285 阅读 · 0 评论 -
阿里安全人机行为识别比赛 前五名队伍分享
1. 第一名 StanTheMan1.1 团队介绍1.2 算法方案解析1.2.1 赛题介绍1.2.2 数据理解1.2.3 数据预处理1.2.4 解题思路1.2.4.1 思路1: 利用机器行为的重复性1.2.4.2 思路2: Fingerprint(行为序列)分析1.2.4.3 思路3.1: 滑块1.2.4.4 思路3.2: 鼠标移动1.2.4.5 思路3.3: 键盘1.2.4.6 思路4: 异常值打分模型1.3 总结2. 第二名 freelife2.1 赛题介绍原创 2021-12-23 15:44:06 · 13130 阅读 · 11 评论 -
文本数据增强方法
文章目录1. EDA2. 回译3. 环境安装3.1 安装synonyms4. 代码链接1. EDA2. 回译3. 环境安装3.1 安装synonymsexport SYNONYMS_WORD2VEC_BIN_URL_ZH_CN=https://gitee.com/chatopera/cskefu/attach_files/610602/download/words.vector.gzpip install -U synonymspython -c "import synonyms" # dow原创 2021-02-25 17:40:38 · 13165 阅读 · 13 评论 -
神经网络训练技巧总结
1. mixup2. 标签平滑化3. 学习率预热和衰减3.1 学习率预热3.2 学习率衰减(余弦衰减)4. 同步批量归一化5. 部分结果原创 2019-09-26 11:20:20 · 12465 阅读 · 5 评论 -
万字详解使用simpletransformers快速构建NLP比赛baseline
1. simpletransformers的安装2. simpletransformers的使用2.1 文本分类2.1.1 使用原生BERT2.1.1.1 模型构建与预测2.1.2 使用Roberta2.1.2.1 将Tensorflow预训练模型转换成Pytorch版本2.1.2.2 模型构建与预测2.1.3 Bug及解决方案汇总2.1.3.1 AttributeError: 'float' object has no attribute 'strip'3. 使用trick原创 2021-01-11 22:47:40 · 13959 阅读 · 15 评论 -
从头开始训练BERT语言模型
文章目录1. 数据准备1.1 构建语料库1.2 构建字典文件2. 创建预训练数据3. 预训练4. 训练BERT代码链接5. BERT下游任务应用举例5.1 将tf模型转换成pytorch格式5.2 使用simpletransformers进行文本分类1. 数据准备1.1 构建语料库 如果没有给定语料库文件(如corpus.txt),则可使用训练集、测试集数据来构建语料库文件,具体代码如下所示(代码文件名为):filtered_line = set()with open('../../data/原创 2021-02-22 17:34:27 · 13109 阅读 · 35 评论