- 博客(5)
- 收藏
- 关注
原创 Datawhale AI夏令营---机器学习
本项目旨在构建一个二分类模型,预测设备(did)是否为新用户(is_new_did),使用大型数据集(训练集3,429,925个样本,测试集1,143,309个样本)。目标是实现F1分数 > 0.9。流水线包括数据加载、特征工程、使用LightGBM进行模型训练、使用SMOTE处理类别不平衡、使用Optuna进行超参数调优以及生成提交文件。开发过程中遇到了多个错误,通过修复获得了宝贵的经验教训。
2025-07-15 14:44:57
1250
原创 Datawhale AI夏令营---大模型技术--NLP实战项目学习笔记
NLP实战项目学习笔记一、项目整体架构整个代码流程可以分为三个主要部分:基础分类任务 (任务一 & 二):使用传统的TF-IDF + LinearSVC模型,快速处理标注数据相对明确的商品识别和多维度情感分类任务。这部分作为项目的稳健基线。向量化准备 (任务三前置):关键词向量:使用TfidfVectorizer为评论文本生成稀疏的TF-IDF向量。
2025-07-14 10:45:48
1737
原创 DatawhaleAI夏令营---机器学习方向
我们通过sort_values(‘common_ts’).drop_duplicates(‘did’, keep=‘last’)找到每个用户在训练数据中最后一次出现时的标签,将其视为该用户的最终确定状态。生命周期: common_ts: [‘max’, ‘min’] -> 计算max - min得到用户的活跃时长(activity_span_seconds),这是衡量用户粘性的强力特征。本次优化的核心思想是摒弃单一的、基于“事件粒度”的预测模型,转向一个结合了“用户画像”和“规则系统”的混合模型。
2025-07-13 16:48:08
264
原创 Datawhale-星火大模型学习笔记
总体来说第一阶段还是非常简单的,整个过程没有什么难点。一、注册账号、下载相关数据集。二、添加模型相关信息。
2024-12-11 13:25:04
244
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅