自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Datawhale AI夏令营---机器学习

本项目旨在构建一个二分类模型,预测设备(did)是否为新用户(is_new_did),使用大型数据集(训练集3,429,925个样本,测试集1,143,309个样本)。目标是实现F1分数 > 0.9。流水线包括数据加载、特征工程、使用LightGBM进行模型训练、使用SMOTE处理类别不平衡、使用Optuna进行超参数调优以及生成提交文件。开发过程中遇到了多个错误,通过修复获得了宝贵的经验教训。

2025-07-15 14:44:57 1250

原创 Datawhale AI夏令营---大模型技术--NLP实战项目学习笔记

NLP实战项目学习笔记一、项目整体架构整个代码流程可以分为三个主要部分:基础分类任务 (任务一 & 二):使用传统的TF-IDF + LinearSVC模型,快速处理标注数据相对明确的商品识别和多维度情感分类任务。这部分作为项目的稳健基线。向量化准备 (任务三前置):关键词向量:使用TfidfVectorizer为评论文本生成稀疏的TF-IDF向量。

2025-07-14 10:45:48 1737

原创 DatawhaleAI夏令营---机器学习方向

我们通过sort_values(‘common_ts’).drop_duplicates(‘did’, keep=‘last’)找到每个用户在训练数据中最后一次出现时的标签,将其视为该用户的最终确定状态。生命周期: common_ts: [‘max’, ‘min’] -> 计算max - min得到用户的活跃时长(activity_span_seconds),这是衡量用户粘性的强力特征。本次优化的核心思想是摒弃单一的、基于“事件粒度”的预测模型,转向一个结合了“用户画像”和“规则系统”的混合模型。

2025-07-13 16:48:08 264

原创 Datawhale---大模型技术task2

在着手优化前,首先要深度理解官方提供的Baseline方案,并分析其潜在的失分点。

2025-07-13 16:24:41 644

原创 Datawhale-星火大模型学习笔记

总体来说第一阶段还是非常简单的,整个过程没有什么难点。一、注册账号、下载相关数据集。二、添加模型相关信息。

2024-12-11 13:25:04 244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除