CURRY-666-优快云博客

原创 Datawhale AI夏令营---机器学习

本项目旨在构建一个二分类模型，预测设备（did）是否为新用户（is_new_did），使用大型数据集（训练集3,429,925个样本，测试集1,143,309个样本）。目标是实现F1分数 > 0.9。流水线包括数据加载、特征工程、使用LightGBM进行模型训练、使用SMOTE处理类别不平衡、使用Optuna进行超参数调优以及生成提交文件。开发过程中遇到了多个错误，通过修复获得了宝贵的经验教训。

2025-07-15 14:44:57 1250

原创 Datawhale AI夏令营---大模型技术--NLP实战项目学习笔记

NLP实战项目学习笔记一、项目整体架构整个代码流程可以分为三个主要部分：基础分类任务 (任务一 & 二)：使用传统的TF-IDF + LinearSVC模型，快速处理标注数据相对明确的商品识别和多维度情感分类任务。这部分作为项目的稳健基线。向量化准备 (任务三前置)：关键词向量：使用TfidfVectorizer为评论文本生成稀疏的TF-IDF向量。

2025-07-14 10:45:48 1737

我们通过sort_values(‘common_ts’).drop_duplicates(‘did’, keep=‘last’)找到每个用户在训练数据中最后一次出现时的标签，将其视为该用户的最终确定状态。生命周期: common_ts: [‘max’, ‘min’] -> 计算max - min得到用户的活跃时长（activity_span_seconds），这是衡量用户粘性的强力特征。本次优化的核心思想是摒弃单一的、基于“事件粒度”的预测模型，转向一个结合了“用户画像”和“规则系统”的混合模型。

2025-07-13 16:48:08 264

原创 Datawhale---大模型技术task2

在着手优化前，首先要深度理解官方提供的Baseline方案，并分析其潜在的失分点。

2025-07-13 16:24:41 644

原创 Datawhale-星火大模型学习笔记

总体来说第一阶段还是非常简单的，整个过程没有什么难点。一、注册账号、下载相关数据集。二、添加模型相关信息。

2024-12-11 13:25:04 244

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

m0_64102074的博客

原创 Datawhale AI夏令营---机器学习

原创 Datawhale AI夏令营---大模型技术--NLP实战项目学习笔记

原创 DatawhaleAI夏令营---机器学习方向

原创 Datawhale---大模型技术task2

原创 Datawhale-星火大模型学习笔记

空空如也

空空如也