- 博客(12)
- 收藏
- 关注
原创 Python打卡DAY11
1. 导入库 筛选离散特征 对离散特征进行标签编码 独热编码 以及缺失值的中位数补全。3.由于许多函数自带交叉验证 所以如果想不交叉比较麻烦 只需划分一次训练集与测试集。purpose独热编码的具体理解 前几天没搞懂。这里time函数用于计时import time。5.针对lightgbm自己试着进行调参。可以看见val 和test 均占10%2.划分训练集 验证集 测试集的方法。4. 导入随机森林并进行调参。
2025-07-19 18:07:31
376
原创 Python打卡DAY10
6000,17的意思是6000个样本 17个特征 这里以8:2的形式划分了训练集与测试集。今日代码比较多,但是难度不大,仔细看看示例代码,好好理解下这几个评估指标。尝试对心脏病数据集采用机器学习模型建模和评估。2. 读取数据查看数据信息--理解数据。DAY 10 机器学习建模与评估。五.对心脏病数据集进行训练与测试。机器学习模型建模的三行代码。机器学习模型分类问题的评估。二.划分训练集与测试集。处理object数据。四.模型的训练与测试。
2025-07-17 22:49:12
429
原创 Python打卡DAY9
使用循环实现刚才的坐标形式 可以简化代码 这里row col 会从0,0 变成1,1 一个意思。7.enumerate()函数 可返回迭代对象。6. 以坐标的形式绘制四个特征的箱线图。可以看到object变成了int型。4.将上面的字符串映射为数字。2. 查看前五行数据。
2025-07-12 23:33:57
285
原创 Python打卡DAY8
之前提到离散数据 如果是不存在顺序,则采用独热编码,函数为pd.get_dummies()。按照贷款严重程度来进行标签编码 这里也可以用独热编码。值就是Alice 30 和New York 相对应。前面几行是函数的内容 最后打印数值归一化后的效果。3.对annual income做归一化处理。那么存在大小和顺序的离散特征则采用标签编码。即自有房小于租房小于有其他贷款小于有房贷。同时对两个特征进行标签编码 做一个嵌套。继续完成对心脏病数据集的预处理。1.字典 用于储存键值对。二分类问题的标签编码。
2025-07-11 22:17:43
348
原创 Python打卡DAY7
今天复习 又重新复习了一遍复试班的内容 收获颇丰 感恩!还有许多不足 继续学习。DAY7 复习日 针对上周学过知识对心脏病数据集进行预处理。性别分布直方图(问ai的)
2025-07-07 23:57:52
150
原创 Python打卡DAY6
8.由于离散变量Number of Open Accounts 有多个变量 绘制其与标签Credit Default关系的横坐标会挤在一起 需要在代码中进行分组。plt.rcParams['font.sans-serif'] = ['SimHei'] 可设置全局字体支持中文。plt.rcParams['axes.unicode_minus'] = False 解决负号变成方块。6.针对离散标签连续特征绘制箱线图 Credit Default 分为0与1 即违约和不违约。DAY6任务 学习数据可视化。
2025-07-06 22:54:26
399
原创 Python打卡DAY5
可以看到变成了该列名_Rent 或_Own Home 等 添加了下划线。现在在py文件中 一次性处理data数据中所有的连续变量和离散变量。5.查看一下转换后的数据类型,并将bool型转为int型。3. 对独热编码后的变量转化为int类型。2.打印一下Home Ownership。2. 对离散变量进行one-hot编码。转换一下类型 将bool型转为int型。6.一次性对所有离散特征进行独热编码。7.难点-如何找到被独热编码的列名。题目:离散特征的独热编码。4.对该列进行独热编码。DAY 5 独热编码。
2025-07-05 21:22:21
160
原创 Python打卡DAY4
data[i].mean() 为第i列的均值并赋给 mean_value 并用data[i].fillna(mean_value, inplace=True)填补。2.data.isnull() 输出布尔矩阵查看缺失值 若为缺失则为true 反之为false。data['Annual Income'].isnull().sum() 再次检查数据是否填补完毕。8.data.isnull().sum() 可显示每一列缺失值的数量。这里会返回四个最多频次的值 一般选第一个 mode = mode[0]
2025-07-04 22:55:26
929
原创 Python打卡DAY3
创建一个包含三个字符串元素的列表 tech_list,元素分别为 “Python”, “Java”, “Go”。修改 tech_list 中的第二个元素(索引为 1),将其从 “Java” 更改为 “Ruby”。计算列表tech_list当前长度 current_length = len(tech_list)定义一个包含整数的列表 scores,赋值为 [85, 92, 78, 65, 95, 88]。计算当前 tech_list 的长度,并将结果存储在变量 current_length 中。
2025-07-03 15:12:13
764
原创 Python打卡DAY2
比较 score_a 是否大于 score_b,将比较结果(布尔值)存储在变量 is_a_higher 中;比较 score_a 是否小于等于 score_b,将结果存储在变量 is_a_lower_or_equal 中;笔记:is_a_higher = score_a > score_b 用于判断a是否大于b,a小于b所以会输出false。is_a_lower_or_equal = score_a <= score_b 判断a是否小等于b。= score_b 判断a是否不等于b。
2025-07-02 12:31:59
268
原创 Python打卡DAY1
a = 1b = 2c = 3print(a)print(b)print(c)进阶:如何用一行代码输出上面三行print()- 使用换行符\na = 1b = 2c = 3f"{a}\n{b}\n{c}" 创建了一个字符串。f 表示这是一个 f-string,它会把 {a}, {b}, {c} 替换成对应变量的值。所以这个字符串实际上是 "1\n2\n3"。当 print() 函数打印这个字符串时,遇到 \n 就会换行。
2025-07-01 22:41:53
261
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅