本次参加的比赛为科大讯飞的新增用户预测挑战赛
一、背景
科大讯飞主办的一项数据科学竞赛,旨在通过机器学习方法预测用户是否为新增用户。
比赛属于二分类任务,评价指标采用F1分数,分数越高表示模型性能越好。
行业价值:
精准预测用户增长趋势,优化产品迭代方向
降低用户获取成本,提高营销转化率
为AI能力落地提供量化评估依据
技术价值:
解决实际业务场景中的用户增长预测问题
验证AI在用户行为分析领域的有效性
建立可复用的用户增长预测方法论
二、数据介绍
参与算法赛事,一定要仔细理解赛事的 输入-输出 究竟是什么,尤其是提交的格式。

三、baseline以及优化baseline
import pandas as pd
import numpy as np
import json
import lightgbm as lgb
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score
from sklearn.preprocessing import LabelEncoder
import warnings
warnings.filterwarnings('ignore')
# 1. 数据加载
train_df = pd.read_csv('./train.csv')
test_df = pd.read_csv('./testA_data.csv')
submit = test_df[['did']]
full_df = pd.concat([train_df, test_df], axis=0)
# 2. 时间特征工程
for df in [train_df, test_df, full_df]:
# 转换为时间戳
df['ts'] = pd.to_datetime(df['common_ts'], unit='ms')
# 提取时间特征
df['day'] = df['ts'].dt.day
df['dayofweek'] = df['ts'].dt.dayofweek
df['hour'] = df

最低0.47元/天 解锁文章
2773

被折叠的 条评论
为什么被折叠?



