机器学习第三期2datawhale

最新推荐文章于 2025-12-04 23:50:06 发布

原创最新推荐文章于 2025-12-04 23:50:06 发布 · 107 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

博客介绍了数据分析和可视化相关内容，如使用pd.get_dummies进行One-Hot编码，借助matplotlib和seaborn进行可视化。还对任务2.1中数据字段类型进行分析，确定数值和类别类型字段。此外，阐述了多种模型交叉验证方法及其适用场景，对比决策树和lightgbm精度。

对任务一问题的解释

代码中如何对udmp进行了人工的onehot？

使用pd.get_dummies函数进行One-Hot编码,pd.concat()函数进行合并

import pandas as pd

# 假设数据存储在名为data.csv的文件中，读取数据到DataFrame对象
data = pd.read_csv('data.csv')

# 提取需要进行One-Hot编码的字段，假设该字段名为"ud_mp"
ud_mp = data['ud_mp']

# 使用get_dummies函数进行One-Hot编码
one_hot_encoded = pd.get_dummies(ud_mp, prefix='ud_mp')

# 将编码后的结果与原始数据合并
data_encoded = pd.concat([data, one_hot_encoded], axis=1)

# 删除原始的"ud_mp"字段
data_encoded.drop('ud_mp', axis=1, inplace=True)

# 输出编码后的数据
print(data_encoded)

数据分析和可视化

matplotlib

主要的模块和函数包括：

1. pyplot模块：提供了类似于Matlab的绘图API，可以方便地创建和定制各种图表。
2. Figure对象：表示整个图形图像窗口，包含多个子图。
3. Axes对象：表示图表中的坐标系，可以在其中绘制具体的图形元素。
4. Line2D对象：表示线条，可用于绘制折线图、曲线图等。
5. Scatter对象：表示散点图，可用于绘制二维数据点。
6. Bar对象：表示柱状图，可用于展示分类变量的数据分布。
7. Pie对象：表示饼图，可用于展示类别占比等信息。
8. Contour对象：表示等高线图，可用于可视化二维数据的密度分布。
9. Subplot函数：用于在一个图形窗口中创建多个子图。
10. 设置函数：用于调整图表的标题、坐标轴标签、刻度等属性。

seaborn(代码中简称sns): 热力图

任务2.1

字段x1至x8为用户相关的属性，为匿名处理字段。添加代码对这些数据字段的取值分析，那些字段为数值类型？那些字段为类别类型？

使用dtype属性获取每个字段的数据类型然后通过判断是否为int64或float64来确定字段类型，得出结果：数值类型字段： ['uuid', 'eid', 'common_ts', 'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'target'] 类别类型字段： ['udmap'] ，故x1至x8均为数值类型字段。

import pandas as pd

# 读取数据到DataFrame对象
data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')

# 使用dtypes属性获取每个字段的数据类型
data_types = data.dtypes

# 根据数据类型判断字段类型
numeric_fields = []
categorical_fields = []

for field, dtype in data_types.items():
    if dtype == 'int64' or dtype == 'float64':
        numeric_fields.append(field)
    else:
        categorical_fields.append(field)

# 输出结果
print("数值类型字段：", numeric_fields)
print("类别类型字段：", categorical_fields)

对于数值类型的字段，考虑绘制在标签分组下的箱线图。

import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')
columns=data.iloc[:,4:11]
# 使用seaborn中的boxplot()函数绘制多个变量的箱线图，并用“orient=‘v’”这一参数区分不同变量
sns.boxplot(data=columns, orient='v')

# 设置图表标题和坐标轴标签
plt.title('x1-x8')
plt.xlabel('Variable')
plt.ylabel('Value')

# 显示图表
plt.show()

得到结果