
Datawhale的AI夏令营
文章平均质量分 84
cool0805
这个作者很懒,什么都没留下…
展开
-
Datawhale夏令营第三期:机器学习任务二
数据探索性分析,是通过了解数据集,了解变量间的相互关系以及变量与预测值之间的关系,对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,从而帮助我们后期更好地进行特征工程和建立模型,是机器学习中十分重要的一步。添加代码对这些数据字段的取值分析,那些字段为数值类型?那些字段为类别类型?【机器学习】随机森林预测并可视化特征重要性_python随机森林特征重要性_白̵敬̵̵亭的博客-优快云博客。对于数值类型的字段,考虑绘制在标签分组下的箱线图。原创 2023-08-22 22:24:04 · 124 阅读 · 1 评论 -
Datawhale夏令营第三期:机器学习baseline代码解读
'target'].mean() ,计算每个 eid 分组的 目标值(target) 均值, 【不知道为什么】创建pd.DataFrame的方法. pd.DataFrame函数详解 - 知乎 (zhihu.com)train_data['eid'].value_counts() 返回每个 eid 出现的频次计数。.map() 方法将每个样本的 eid 映射到训练数据中 eid 的频次计数,截取图片: eid为0 ,eid为1 , eid为2。运行结果:(带上 行和列 的默认标签)给堆叠好的数组带上标签。原创 2023-08-16 18:39:38 · 216 阅读 · 1 评论 -
Datawhale夏令营第三期:机器学习任务一
f1_score【数据类别有点分布不均匀,用该指标打分,会比准确率指标好一点】答:一共有9个key,写出9列key1_key9,在对应key下写上对应数字。选择机器学习,需要结合特征工程(人工提取特征)(考虑原始的时间含义)如果将submit.csv提交到讯飞比赛页面,会有多少的分数?每个字段之间的相关性,哪个跟标签相关?——时间戳 X2 X7。机器学习模型不支持字符串的输入,需要转变数值、向量、矩阵。赛题背景:根据信息,分析用户是 老用户 还是 新用户。数据集每个字段的类型?——对udmap做编码。原创 2023-08-15 22:39:08 · 168 阅读 · 0 评论