机器学习第三期2datawhale

博客介绍了数据分析和可视化相关内容,如使用pd.get_dummies进行One-Hot编码,借助matplotlib和seaborn进行可视化。还对任务2.1中数据字段类型进行分析,确定数值和类别类型字段。此外,阐述了多种模型交叉验证方法及其适用场景,对比决策树和lightgbm精度。

对任务一问题的解释 

  • 代码中如何对udmp进行了人工的onehot?

 使用pd.get_dummies函数进行One-Hot编码,pd.concat()函数进行合并

import pandas as pd

# 假设数据存储在名为data.csv的文件中,读取数据到DataFrame对象
data = pd.read_csv('data.csv')

# 提取需要进行One-Hot编码的字段,假设该字段名为"ud_mp"
ud_mp = data['ud_mp']

# 使用get_dummies函数进行One-Hot编码
one_hot_encoded = pd.get_dummies(ud_mp, prefix='ud_mp')

# 将编码后的结果与原始数据合并
data_encoded = pd.concat([data, one_hot_encoded], axis=1)

# 删除原始的"ud_mp"字段
data_encoded.drop('ud_mp', axis=1, inplace=True)

# 输出编码后的数据
print(data_encoded)

 数据分析和可视化

matplotlib

主要的模块和函数包括:

1. pyplot模块:提供了类似于Matlab的绘图API,可以方便地创建和定制各种图表。
2. Figure对象:表示整个图形图像窗口,包含多个子图。
3. Axes对象:表示图表中的坐标系,可以在其中绘制具体的图形元素。
4. Line2D对象:表示线条,可用于绘制折线图、曲线图等。
5. Scatter对象:表示散点图,可用于绘制二维数据点。
6. Bar对象:表示柱状图,可用于展示分类变量的数据分布。
7. Pie对象:表示饼图,可用于展示类别占比等信息。
8. Contour对象:表示等高线图,可用于可视化二维数据的密度分布。
9. Subplot函数:用于在一个图形窗口中创建多个子图。
10. 设置函数:用于调整图表的标题、坐标轴标签、刻度等属性。

 seaborn(代码中简称sns): 热力图

任务2.1 
  • 字段x1至x8为用户相关的属性,为匿名处理字段。添加代码对这些数据字段的取值分析,那些字段为数值类型?那些字段为类别类型?

使用dtype属性获取每个字段的数据类型 然后通过判断是否为int64或float64来确定字段类型,得出结果:数值类型字段: ['uuid', 'eid', 'common_ts', 'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'target'] 类别类型字段: ['udmap'] ,故x1至x8均为数值类型字段。

import pandas as pd

# 读取数据到DataFrame对象
data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')

# 使用dtypes属性获取每个字段的数据类型
data_types = data.dtypes

# 根据数据类型判断字段类型
numeric_fields = []
categorical_fields = []

for field, dtype in data_types.items():
    if dtype == 'int64' or dtype == 'float64':
        numeric_fields.append(field)
    else:
        categorical_fields.append(field)

# 输出结果
print("数值类型字段:", numeric_fields)
print("类别类型字段:", categorical_fields)
  • 对于数值类型的字段,考虑绘制在标签分组下的箱线图。
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')
columns=data.iloc[:,4:11]
# 使用seaborn中的boxplot()函数绘制多个变量的箱线图,并用“orient=‘v’”这一参数区分不同变量
sns.boxplot(data=columns, orient='v')

# 设置图表标题和坐标轴标签
plt.title('x1-x8')
plt.xlabel('Variable')
plt.ylabel('Value')

# 显示图表
plt.show()

得到结果

 

模型交叉验证

用于机器学习评估模型性能的统计方法

  1. :HoldOut Cross-validation(Train-Test Split)-随机分配82分或73分等
  2. K次交叉验证(K-Fold Cross-Validation)-K个部分顾名思义都当一边验证集
  3. 分层K次交叉验证(Stratified K-Fold Cross-Validation)-2的增强版
  4. Leave P Out cross-validation -p个样本被用作验证集和2类似
  5. Leave One Out cross-validation -p=1
  6. 蒙特卡罗交叉验证(Monte Carlo Cross-Validation)-
  7. 时间序列交叉验证(Time Series Cross-Validation)-适合时间序列数据集

1.2.不适用于不平衡数据 ,不平衡数据集用3,时间序列数据集用7

f1-score

SGD

决策树多媒体随机森林
accuracy
0.700
0.891
0.697 
0.891
macro avg
0.515
0.771
0.552
0.750
weighted avg
0.730
0.890
0.735
0.885

故决策树精度更高,与lightgbm相比后者更精确


评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值