- 博客(26)
- 收藏
- 关注
原创 DAY14打卡 SHAP图的绘制
通过计算每个特征对单个预测(相对于平均预测)的边际贡献(Shapley 值),提供了一种将模型预测分解到每个特征上的方法。这种分解对于每个样本和每个特征(以及分类问题中的每个类别)都需要进行,因此生成了我们看到的 `shap_values`分类问题和回归问题输出的shap_values的形状不同。
2025-05-28 23:16:47
190
原创 DAY13打卡 不平衡数据集处理
从示例代码可以看到 效果没有变好,所以很多步骤都是理想是好的,但是现实并不一定可以变好。这个实验仍然有改进空间,如下。1. 我还没做smote+过采样+修改权重的组合策略,有可能一起做会变好。2. 我还没有调参,有可能调参后再取上述策略可能会变好。
2025-05-27 23:45:06
1786
原创 DAY12打卡 启发式算法
1. 初始化一个种群(随机产生多个解)2. 对每个个体计算适应度 f(x)3. 选择适应度高的个体作为父母4. 交叉父母,生成新个体5. 可能发生变异(改变一部分基因)6. 更新种群并迭代,直到满足停止条件适应度函数:评价每个解的优劣f(x)=x2f(x) = x^2f(x)=x2 本例中,x 越大,f(x) 越好,表示越优解。交叉操作将两个父母基因平均组合变异操作添加一个小的高斯随机数def fitness(x): return x**2 # 目标函数,越大越好。
2025-05-26 23:56:03
598
原创 DAY11打卡 常见的调参方式
模型 = 算法 + 实例化设置的外参(超参数)+训练得到的内参只要调参就需要考2次【所以如果不做交叉验证,就需要划分验证集和测试集,但是很多调参方法中都默认有交叉验证,所以实际中可以省去划分验证集和测试集的步骤;只需要用好调参工具即可】
2025-05-25 23:23:19
425
原创 Day9打卡 热力图和子图的绘制
之所以这个函数很有用,是因为它允许我们同时迭代一个序列,并获取每个元素的索引和值。iterable -- 迭代对象,迭代对象可以是列表、元组、字典、字符串等。热力图本质上只能对连续值进行绘制,对于数值形的离散值其实是不合适用热力图的。enumerate()函数返回一个迭代对象,该对象包含索引和值。返回一个迭代对象,该对象包含索引和值。start -- 索引的开始值。
2025-05-23 23:49:07
188
原创 Day8打卡 标签编码与连续变量处理
按照贷款严重程度(抗风险能力),依次是:自有住房 < 租房 < 有其他贷款 < 住房抵押贷款。,键是唯一的,值可以重复。这很符合数据的特征是固定的,但是值可以变化这个特性。现在介绍对于存在顺序和大小关系的离散特征,做好标签编码,借助dataframe的。给Home Oweners来完成标签编码[也可以独热编码,谁训练的好选谁]可以通过手写函数实现,也可以使用sklearn中的归一化和标准化函数。如果是不存在顺序的离散顺序,则采用。连续特征的处理:归一化和标准化。字典的键值对可以嵌套字典。
2025-05-22 22:39:15
210
原创 Day6打卡 描述性统计
内容回顾:数据初步可视化单特征可视化:连续变量箱线图(还说了核密度直方图)、离散特征直方图特征和标签关系可视化箱线图美化--->直方图】
2025-05-20 22:43:13
231
原创 Day5打卡 独热编码
可以鼠标悬停来查看每个函数的参数,这里采用了类型注解写法,可以看到每个参数的要求类型,同时可以看到参数的默认值,如果没有默认值就是必填参数。【如果顺序颠倒的话,用众数补全,比如北京上海深圳001,有可能三个数的众数都是0,就会变成000。注意:这里区分离散变量仅仅通过object类型,实际中还需要结合对数据的认识,这里为了方便没有考虑现实意义。在py文件中 一次性处理data数据中所有的连续变量和离散变量。到此为止,已经掌握了对离散变量做独热编码的所有方法。3. 对独热编码后的变量转化为int类型。
2025-05-19 23:50:28
213
原创 Day4打卡 认识pandas与缺失值的处理
题目:初识pandas库与缺失数据的补全题目:初识pandas库与缺失数据的补全按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值打开数据(csv文件、excel文件)查看数据(尺寸信息、查看列名等方法)查看空值众数、中位数填补空值利用循环补全所有列的空值。
2025-05-18 23:53:45
405
原创 Day3打卡 列表、循环和判断语句
一、列表的基础操作题目1:创建一个包含三个字符串元素的列表 tech_list,元素分别为 “Python”, “Java”, “Go”。获取列表中的第一个元素,并将其存储在变量 first_tech 中。向 tech_list 的末尾添加一个新的字符串元素 “JavaScript”。修改 tech_list 中的第二个元素(索引为 1),将其从 “Java” 更改为 “Ruby”。移除列表中的元素 “Go”。
2025-05-17 23:58:16
838
原创 Day2打卡 字符串与比较运算
定义变量并比较= score_b# 使用f-string分三行输出比较结果print(f"{score_a} 是否大于 {score_b}: {is_a_higher}\n"f"{score_a} 是否小于等于 {score_b}: {is_a_lower_or_equal}\n"f"{score_a} 是否不等于 {score_b}: {is_different}")输出为:75 是否大于 90: False75 是否小于等于 90: True。
2025-05-16 23:50:01
320
原创 Day1打卡 变量与格式化字符串
题目: 定义两个整数变量,num1 赋值为 20,num2 赋值为 8。计算这两个变量的和,并将结果存储在一个新的变量 a 中;然后,使用 f-string 打印出类似 “20 加 8 的结果是:28” 的信息,分成三行打印。题目: 创建两个变量:name 存储你的名字(字符串,例如 "小明"),city 存储你所在的城市(字符串,例如 "北京")。借助trae内置AI大模型(可结合左侧代码)不断沟通,加深理解【例如:基于上述问答,帮我出几道(更难的)python的题目,强化我的代码能力。
2025-05-15 23:41:35
1541
原创 Python打卡DAY16
知识点:numpy数组的创建:简单创建、随机创建、遍历、运算numpy数组的索引:一维、二维、三维SHAP值的深入理解。
2025-05-05 23:58:38
182
原创 Python打卡DAY14
通过计算每个特征对单个预测(相对于平均预测)的边际贡献(Shapley 值),提供了一种将模型预测分解到每个特征上的方法。这种分解对于每个样本和每个特征(以及分类问题中的每个类别)都需要进行,因此生成了我们看到的 `shap_values` 数组结构。分类问题和回归问题输出的shap_values的形状不同。
2025-05-03 23:57:04
637
原创 Python打卡DAY13
从示例代码可以看到 效果没有变好,所以很多步骤都是理想是好的,但是现实并不一定可以变好。这个实验仍然有改进空间,如下。1. 我还没做smote+过采样+修改权重的组合策略,有可能一起做会变好。1. 结合SMOTE、Random OverSampling和修改类别权重。2. 我还没有调参,有可能调参后再取上述策略可能会变好。不平衡数据集的处理:过采样、修改权重、修改阈值。
2025-05-02 23:56:04
190
原创 Python打卡DAY12
遗传算法:模拟自然选择过程,通过选择、交叉和变异来优化解。粒子群算法:模拟鸟群觅食过程,粒子通过个体和群体经验不断更新位置来找到最优解。退火算法:模拟物理退火过程,随着温度降低逐渐收敛到最优解,通过接受更差的解避免陷入局部最优。@浙大疏锦行。
2025-05-01 23:56:59
447
原创 Python打卡DAY11
模型 = 算法 + 实例化设置的外参(超参数)+训练得到的内参只要调参就需要考2次【所以如果不做交叉验证,就需要划分验证集和测试集,但是很多调参方法中都默认有交叉验证,所以实际中可以省去划分验证集和测试集的步骤;只需要用好调参工具即可】网格搜索随机搜索(简单介绍,非重点 实战中很少用到,可以不了解)贝叶斯优化(2种实现逻辑,以及如何避开必须用交叉验证的问题)time库的计时模块,方便后人查看代码运行时长数据预处理。
2025-04-30 23:50:48
553
原创 Python训练营打卡Day9
iterable -- 迭代对象,迭代对象可以是列表、元组、字典、字符串等。热力图本质上只能对连续值进行绘制,对于数值形的离散值其实是不合适用热力图的。enumerate()函数返回一个迭代对象,该对象包含索引和值。返回一个迭代对象,该对象包含索引和值。start -- 索引的开始值。之所以这个函数很有用,是因为。
2025-04-28 23:54:57
277
原创 Python训练营打卡Day8
目前只会用到映射这个用法,他需要传入的是字典,因为字典的键值对,键是唯一的,值可以重复。这很符合数据的特征是固定的,但是值可以变化这个特性。所以后续想完成新的映射,直接修改字典的键值对即可。# 使用花括号创建字典 字典名={键:值,键:值}dict['name'] # 访问字典中的值。
2025-04-27 23:57:24
144
原创 Python训练营打卡Day6
数据初步可视化对于数据可视化一般会进行如下操作1. 单特征分布可视化【连续变量箱线图(以及核密度直方图)、离散特征直方图】2. 特征与标签关系可视化3. 特征与特征关系可视化【箱线图美化--->直方图。
2025-04-25 23:37:39
433
原创 Python训练营打卡Day5
可以鼠标悬停来查看每个函数的参数,这里采用了类型注解写法,可以看到每个参数的要求类型,同时可以看到参数的默认值,如果没有默认值就是必填参数。注意:这里区分离散变量仅仅通过object类型,实际中还需要结合对数据的认识,这里为了方便没有考虑现实意义。在py文件中 一次性处理data数据中所有的连续变量和离散变量。到此为止,已经掌握了对离散变量做独热编码的所有方法。4. 采取循环对所有离散特征进行独热编码。可以借助下面的调试控制台 来进行值的查看。3. 选择一个离散特征进行独热编码。2. 找到所有离散特征。
2025-04-24 23:40:21
259
原创 Python训练营打卡Day4
初识pandas库与缺失数据的补全按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值打开数据(csv文件、excel文件)查看数据(尺寸信息、查看列名等方法)查看空值众数、中位数填补空值利用循环补全所有列的空值完成后在py文件中独立完成一遍,并且利用debugger工具来查看属性(不借助函数显式查看)----养成利用debugger工具的习惯。
2025-04-24 23:05:21
398
原创 Python训练营打卡Day3
循环for语句一.列表的基础操作题目:创建一个包含三个字符串元素的列表 tech_list,元素分别为 “Python”, “Java”, “Go”。获取列表中的第一个元素,并将其存储在变量 first_tech 中。向 tech_list 的末尾添加一个新的字符串元素 “JavaScript”。修改 tech_list 中的第二个元素(索引为 1),将其从 “Java” 更改为 “Ruby”。移除列表中的元素 “Go”。
2025-04-22 23:58:31
797
原创 Python训练营打卡Day2
一.字符串的操作题目: 定义两个字符串变量,str1 赋值为 “Hello”,str2 赋值为 “Python”。将这两个字符串拼接起来(中间加一个空格),并将结果存储在变量 greeting 中;计算 greeting 字符串的长度,存储在变量 length 中;获取 greeting 字符串的第一个字符,存储在变量 first_char 中。然后,使用 f-string 分三行打印出类似以下格式的信息:拼接结果: Hello Python字符串长度: 12第一个字符: H。
2025-04-21 23:56:40
403
原创 Python训练营打卡Day1
num1=20num2=8print(f"{num1}加{num2}的结果是:{a}")print(f"{num1}除以{num2}的商是:{b}")print(f"{num1}除以{num2}的余数是:{c}")or# 定义变量并计算num1 = 20num2 = 8a = num1 + num2 # 和b = num1 / num2 # 商c = num1 % num2 # 余数# 使用f-string分三行输出。
2025-04-21 23:36:44
1390
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人