对任务一问题的解释
-
代码中如何对udmp进行了人工的onehot?
使用pd.get_dummies函数进行One-Hot编码,pd.concat()函数进行合并
import pandas as pd
# 假设数据存储在名为data.csv的文件中,读取数据到DataFrame对象
data = pd.read_csv('data.csv')
# 提取需要进行One-Hot编码的字段,假设该字段名为"ud_mp"
ud_mp = data['ud_mp']
# 使用get_dummies函数进行One-Hot编码
one_hot_encoded = pd.get_dummies(ud_mp, prefix='ud_mp')
# 将编码后的结果与原始数据合并
data_encoded = pd.concat([data, one_hot_encoded], axis=1)
# 删除原始的"ud_mp"字段
data_encoded.drop('ud_mp', axis=1, inplace=True)
# 输出编码后的数据
print(data_encoded)
数据分析和可视化
matplotlib
主要的模块和函数包括:
1. pyplot模块:提供了类似于Matlab的绘图API,可以方便地创建和定制各种图表。
2. Figure对象:表示整个图形图像窗口,包含多个子图。
3. Axes对象:表示图表中的坐标系,可以在其中绘制具体的图形元素。
4. Line2D对象:表示线条,可用于绘制折线图、曲线图等。
5. Scatter对象:表示散点图,可用于绘制二维数据点。
6. Bar对象:表示柱状图,可用于展示分类变量的数据分布。
7. Pie对象:表示饼图,可用于展示类别占比等信息。
8. Contour对象:表示等高线图,可用于可视化二维数据的密度分布。
9. Subplot函数:用于在一个图形窗口中创建多个子图。
10. 设置函数:用于调整图表的标题、坐标轴标签、刻度等属性。
seaborn(代码中简称sns): 热力图
任务2.1
- 字段x1至x8为用户相关的属性,为匿名处理字段。添加代码对这些数据字段的取值分析,那些字段为数值类型?那些字段为类别类型?
使用dtype属性获取每个字段的数据类型 然后通过判断是否为int64或float64来确定字段类型,得出结果:数值类型字段: ['uuid', 'eid', 'common_ts', 'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'target'] 类别类型字段: ['udmap'] ,故x1至x8均为数值类型字段。
import pandas as pd
# 读取数据到DataFrame对象
data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')
# 使用dtypes属性获取每个字段的数据类型
data_types = data.dtypes
# 根据数据类型判断字段类型
numeric_fields = []
categorical_fields = []
for field, dtype in data_types.items():
if dtype == 'int64' or dtype == 'float64':
numeric_fields.append(field)
else:
categorical_fields.append(field)
# 输出结果
print("数值类型字段:", numeric_fields)
print("类别类型字段:", categorical_fields)
- 对于数值类型的字段,考虑绘制在标签分组下的箱线图。
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')
columns=data.iloc[:,4:11]
# 使用seaborn中的boxplot()函数绘制多个变量的箱线图,并用“orient=‘v’”这一参数区分不同变量
sns.boxplot(data=columns, orient='v')
# 设置图表标题和坐标轴标签
plt.title('x1-x8')
plt.xlabel('Variable')
plt.ylabel('Value')
# 显示图表
plt.show()
得到结果
模型交叉验证
用于机器学习评估模型性能的统计方法
- :HoldOut Cross-validation(Train-Test Split)-随机分配82分或73分等
- K次交叉验证(K-Fold Cross-Validation)-K个部分顾名思义都当一边验证集
- 分层K次交叉验证(Stratified K-Fold Cross-Validation)-2的增强版
- Leave P Out cross-validation -p个样本被用作验证集和2类似
- Leave One Out cross-validation -p=1
- 蒙特卡罗交叉验证(Monte Carlo Cross-Validation)-
- 时间序列交叉验证(Time Series Cross-Validation)-适合时间序列数据集
1.2.不适用于不平衡数据 ,不平衡数据集用3,时间序列数据集用7
f1-score |
SGD | 决策树 | 多媒体 | 随机森林 |
accuracy |
0.700 |
0.891 |
0.697 |
0.891 |
macro avg |
0.515 |
0.771 |
0.552 |
0.750 |
weighted avg |
0.730 |
0.890 |
0.735 |
0.885 |
故决策树精度更高,与lightgbm相比后者更精确